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分 析 算 法 的 人 享有 双重 的 幸福 。 首 先 ， 他 们 能 够 体验 到 优雅 数学 模式 纯粹 的 美 ， 这 种 模式 存 
在 于 优美 的 计算 过 程 之 中 ， 其 次 ， 当 他 们 的 理论 使 得 其 他 工作 能 够 做 得 更 快 、 更 经 济 时 ， 他 们 能 
够 得 到 实际 的 训 奖 。 本 书 作者 是 算法 分 析 领 域 的 世界 级 领袖 ， 这 部 著作 我 们 也 是 期 盼 已 久 了 


一 一 Donald E. Knuth 





本 书 全 面 介绍 了 算法 的 数学 分 析 中 使 用 的 基本 方法 ， 所 涉及 的 内 容 来 自 经 典 的 数学 课题 
(包括 离散 数学 、 初 等 实 分 析 、 组 合 数学 ) ， 以 及 经 典 的 计算 机 科学 课题 (包括 算法 和 数据 结 
构 ) 。 虽 然 书 中 论述 了 “最 坏 情 形 ” 和 “复杂 性 ”分 析 所 需 的 基本 数学 工具 ， 但 是 重点 还 是 
讨论 “平均 情形 ”或 “概率 ”分 析 。 论 题 涉及 递归 、 生 成 函数 、 渐 近 性 、 树 、 串 、 了 映射 等 内 
容 ， 以 及 对 排序 、 树 查找 、 串 查找 和 散 列 诸 算法 的 分 析 。 

尽管 人 们 极为 关注 算法 的 数学 分 析 ， 但 是 关于 普遍 使 用 的 方法 和 模型 方面 的 基本 信息 尚 
不 能 为 该 领域 的 学 生 和 研究 人 员 直 接 使 用 。 作 者 在 本 书 中 处 理 这 种 需求 ， 把 该 领域 出 现 的 挑 
战 以 及 为 迎接 这 些 挑战 所 必需 的 背景 资料 完美 地 结合 在 一 起 。 
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本 书 阐述 了 用 于 算法 数学 分 析 的 主要 方法 ， 所 涉及 的 材料 来 自 经 典 数学 课题 ， 包 括 离 
散 数学 、 初 等 实 分 析 、 组 合 数学 ， 以 及 来 自 经 典 的 计算 机 科学 课题 ， 包 括 算 法 和 数据 结构 。 
本 书 内 容 集 中 覆盖 基础 、 重 要 和 有 趣 的 算法 ， 前 面 侧重 数学 ， 后面 集中 讨论 算法 分 析 的 应 
用 ， 重 点 是 算法 分 析 的 数学 方法 。 每 章 包 含 大 量 习题 以 及 参考 文献 ， 使 读者 可 以 更 深入 地 
理解 书 中 的 内 容 。 

本 书 适 合作 为 高 等 院 校 数学 、 计 算 机 科学 以 及 相关 专业 的 本 科 生 和 研究 生 的 教材 ， 也 可 
供 相 关 技 术 人 员 参 考 。 


Authorized translation from the English language edition entitled An introduction to the 
analysis of algorithms by Robert Sedgewick, Philippe Flajolet, published by Pearson Education, 
Inc, publishing as Addson-Wesley (ISBNO-201-40009-X), Copyright © 1999 by Addison-Wesley 
Publishing Company, Inc. 

All rights reserved. No part of this book may be reproduced or transmitted in any form or 
by any means, electronic or mechanical, including photocopying, recording, or by any 
information storage retrieval system, without permission of Pearson Education, Inc. 

Chinese simplified language edition published by China Machine Press. 

Copyright © 2000 by China Machine Press. 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
KARRDI T AER, 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 裴 出 、 独 领 风 又 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 臂 
划 了 研究 的 范畴 ， 还 揭 攀 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积 淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真 正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 壕 选 、 移 译 国 外 优秀 教材 上。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 王选 出 Tanenbaum，Stroustrup，Kernighan， 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 从 书 ” 为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 废 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 时 力 囊 助 ， 国 内 的 专家 不 仅 提供 了 中 
_ 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 入 一 个 新 的 阶段 。 为 此 ， 华 章 公司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 从 书 ” 之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” 系 列 组 成 
“全 美 经 典 学 习 指导 系列 ”。 为 了 保证 这 三 套 从 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 哈 尔 滨 工 业 大 学 、 西 安 交通 大 学 、 中 国 
人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮电 大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 
北 工学 院 、 中 国 国家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 丛 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
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的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. I. T.，Stanford，U.C. Berkeley, C.M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵盖 了 程序 设计 、 数 据 结构 、 操 作 系统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信和 与 网 络 、 离 散 数学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课 程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 误 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 堂 而 入 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 


专家 指导 委员 会 
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译 者 F 


算法 分 析 一 般 包 括 两 种 不 同 的 方法 。 第 一 种 方法 研究 确定 最 坏 情 形 的 性 能 ， 有 时 称 之 为 
计算 复杂 性 。 当 面 对 一 种 新 的 算法 时 ， 算 法 分 析 能 粗略 地 分 析 : 新 算法 能 够 有 多 好 ? 它 比 其 
他 算法 性 能 大 致 好 多 少 ? 就 算法 分 析 来 说 ， 这 种 复杂 性 分 析 由 于 抛弃 一 些 次 要 因素 而 丧失 不 
少 的 精度 ， 它 提供 不 了 算法 具体 实现 的 性 能 特征 以 及 与 其 他 算法 具体 比较 所 需要 的 足够 信息 。 
不 过 ， 我 们 可 以 把 它 看 成 是 形成 更 精练 、 更 准确 分 析 过 程 的 第 一 步 。 第 二 种 方法 通过 确定 最 
佳 情形 、 最 坏 情 形 以 及 平均 情形 的 性 能 来 精确 地 刻画 算法 的 性 能 ， 在 需要 的 时 候 ， 能 够 通过 
可 以 精 化 的 方法 准确 地 预测 特定 算法 的 性 能 特征 ， 其 中 最 常见 的 是 对 时 间 和 空间 这 样 一 些 基 
本 资源 的 消耗 ， 尤 其 是 时 间 。 算 法 分 析 表 示 整 个 分 析 过 程 ， 它 提供 任意 精度 的 解决 方案 。 

本 书 是 对 算法 的 数学 分 析 中 主要 方法 的 综述 ， 涉 及 离散 数学 、 数 学 分 析 、 组 合 数学 以 及 
数据 结构 和 算法 。 由 于 重点 在 于 平均 情形 的 分 析 ， 因 此 必然 要 涉及 模型 、 分 布 、 和 矩阵 以 及 概 
率 论 和 数理 统计 中 的 其 他 内 容 。 

经 过 近 几 十 年 的 发 展 ， 算 法 分 析 已 经 十 分 成 熟 ， 能 够 在 标准 的 计算 机 课程 中 占有 一 席 之 
地 ， 本 书 为 那些 徘徊 在 该 领域 之 外 却 苦于 不 得 其 门 而 入 的 新 手指 出 通 往 研究 之 门 的 捷径 。 为 
本 科 生 开设 这 门 课 程 可 以 有 少数 内 容 现 用 现 补 ， 研究生 在 先 修 有 关 数 学 和 计算 机 的 相应 知识 
的 基础 上 ， 可 以 将 本 书 用 于 算法 分 析 的 导论 性 课程 。 数 学 和 计算 机 领域 中 不 同 专业 的 学 生 ， 
选修 本 书 可 以 各 有 侧重 ， 作 者 在 前 言 中 提出 了 指导 性 的 建议 。 

本 书 语言 简 炼 ， 推 导 紧 次 ， 能 够 很 好 地 锻炼 我 们 的 独立 阅读 能 力 。 在 验证 书 中 的 结论 和 
求解 练习 的 结果 时 ， 若 能 使 用 像 Matlab、Mathematica 或 MAPLE 这 样 的 计算 机 软件 ， 则 可 帮助 
我 们 摆脱 繁琐 的 演算 ， 节 省 宝贵 的 时 间 。 

本 书 的 另 一 大 特点 是 课文 中 以 及 各 章 末尾 所 列 出 的 参考 文献 ， 对 于 有 心 深造 的 读者 ， 这 
是 十 分 宝贵 的 财富 。 

全 书 共有 8 章 内 容 。 第 3 章 由 李 学 武 翻译 ， 第 4 章 、 第 6 章 、 第 7 章 和 第 8 章 由 斐 伟 东 翻 译 ， 
其 余 工 作 由 冯 络 後 完成 。 因 时 间 和 水 平 所 限 ， 译 文 难免 存在 一 定 的 问题 BOB RRS 
批评 指正 。 


译 者 
2006 年 3 月 
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分 析 算 法 的 人 享有 双重 的 幸福 。 首 先 ， 他 们 能 够 体验 到 优雅 数学 模式 纯粹 的 美 ， 这 种 模 
式 存 在 于 优美 的 计算 过 程 之 中 。 其 次 ， 当 他 们 的 理论 使 得 其 他 工作 能 够 做 得 更 快 、 更 经 济 时 ， 
他 们 能 够 得 到 实际 的 褒奖 。 

数学 模型 始终 是 所 有 科学 活动 至 关 重要 的 灵感 ， 尽 管 它们 只 是 真实 世界 现象 的 近似 理想 
化 。 在 计算 机 内 部 ， 这 种 模型 比 以 前 更 优美 ， 因 为 计算 机 程序 创建 了 人 造 世 界 。 在 这 样 的 世 
界 中 ， 数 学 模型 常常 得 以 精确 地 使 用 。 我 想 ， 这 就 是 为 什么 当 我 还 是 研究 生 时 就 沉迷 于 算法 
分 析 ， 以 及 为 什么 这 个 课题 迄今 为 止 始终 是 我 一 生 主 要 工作 的 原因 。 

然而 ， 直 到 最 近 ， 算 法 分 析 在 很 大 程度 上 依然 是 研究 生 和 研究 人 员 的 禁区 。 它 的 概念 确 
实 不 深奥 也 不 困难 ， 但 是 它们 相对 新 颖 ， 因 此 ， 挑 选 出 学 习 它们 和 使 用 它们 的 最 佳 方法 需要 
时 间 。 

如 今 ， 经 过 30 多 年 的 发 展 ， 算 法 分 析 已 经 成 熟 到 这 样 一 种 程度 ， 即 它 已 经 为 其 在 标准 的 
计算 机 课程 中 占有 一 席 之 地 做 好 了 准备 。 因 此 ， 我 们 期 盼 已 入 的 这 部 Sedgewick 和 Flajolet 的 著 
作 极 受 欢迎 。 本 书 作 者 不 仅 是 这 个 领域 在 世界 范围 内 的 领袖 ， 而 且 还 是 理论 阐述 的 大 师 。 我 
敢 肯定 ， 每 一 位 严肃 的 计算 机 科学 家 都 将 发 现 本 书 在 许多 方面 颇 富 启迪 性 。 


D. E. Knuth 
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本 书 是 对 算法 数学 分 析 中 主要 方法 的 综述 。 所 涉及 的 材料 来 自 经 典 的 数学 课题 ， 包 括 离 
散 数学 、 初 等 实 分 析 、 组 合 数学 ， 以 及 来 自 经 典 的 计算 机 科学 课题 ， 包 括 算 法 和 数据 结构 。 
重点 在 于 “平均 情形 ”或 “概率 ”分 析 ， 不 过 ， 也 包括 “最 坏 情 形 ” 和 “复杂 性 ”分 析 所 需 
要 的 基本 数学 工具 。 

我 们 假设 读者 熟悉 计算 机 科学 和 实 分 析 中 的 基本 概念 。 概 括 地 说 ， 读 者 应 该 既 能 编写 程 
序 ， 又 能 够 证 明定 理 ; 在 其 他 方面 ， 本 书 是 自 包 容 的 。 书 中 还 在 文献 里 提供 了 丰富 的 预备 性 
材料 。 我 们 计划 中 的 本 书 姐妹 篇 将 讨论 更 为 先进 的 方法 。 这 两 部 著作 总 共 涵 盖 那 些 主要 的 方 
法 和 技巧 ， 并 提供 通 向 算法 分 析 日 益 增 长 的 文献 的 捷径 。 

本 书 计划 作为 算法 数学 分 析 初 级 和 高 级 课程 的 教科 书 。 它 也 可 以 在 计算 机 科学 的 离散 数 
学 课程 中 使 用 ， 因 为 它 包含 了 离散 数学 和 组 合 数学 中 的 基本 方法 以 及 计算 机 科学 学 生 所 熟悉 
的 重要 离散 结构 的 基本 性 质 。 传 统 上 ， 在 这 些 课程 中 知识 范围 要 广 一 些 , 但 是 许多 教师 可 能 
发 现 这 里 的 做 法 是 使 学 生 从 事实 质 性 部 分 学 习 的 有 用 方式 。 本 书 还 可 以 作为 数学 和 应 用 数学 
的 学 生 了 解 与 算法 和 数据 结构 相关 的 计算 机 科学 原理 的 教材 。 

辅 以 文献 中 论文 的 补充 ， 本 书 可 作为 研究 生 算法 分 析 导 论 性 课程 的 基础 来 使 用 ， 或 作为 
那些 想 要 接近 该 领域 文献 的 数学 或 计算 机 科学 研究 人 员 的 参考 书 或 自学 基础 材料 。 它 还 可 以 
作为 应 用 和 方法 的 资源 为 字符 组 合 数学 和 离散 数学 的 学 生 和 研究 人 员 使 用 。 

尽管 算法 数学 分 析 方 面 的 文献 很 多 ， 但 是 关于 普遍 使 用 的 方法 和 模型 方面 的 基本 信息 
尚 不 能 很 容易 地 为 该 领域 的 学 生 和 研究 人 员 直 接 使 用 。 本 书 的 目的 就 是 处 理 这 种 情况 ， 把 
想 要 提供 给 读者 该 领域 问题 的 正确 评价 和 学 习 正 在 发 展 以 满足 这 些 挑战 的 高 级 工具 的 需求 
背景 的 大 量 材料 汇聚 在 一 起 。 l 

背景 要 求 。 假 设 数学 程度 为 在 大 学 学 习 一 年 或 两 年 的 水 平 。 组 合 数学 和 离散 数学 的 基本 
课程 可 以 提供 有 用 的 背景 知识 〈 可 能 与 本 书 的 某 些 内 容重 和 登 ) ， 实 分 析 、 数 值 方法 或 初等 数论 
中 的 课程 也 是 如 此 。 我 们 将 涉及 所 有 这 些 领 域 ， 不 过 在 这 里 只 综述 必需 的 材料 ， 那 些 想 要 知 
道 更 多 信息 的 读者 可 以 参考 标准 的 教科 书 。 

假设 编程 经 验 为 在 大 学 学 习 过 一 个 或 两 个 学 期 的 水 平 ， 包括 初等 数据 结构 。 我 们 不 在 编 
程 和 算法 实现 问题 上 过 多 地 耗费 精力 ， 算 法 和 数据 结构 则 是 我 们 研究 的 中 心 课题 。 从 某 种 意 
义 上 讲 ， 我 们 的 处 理 是 完善 的 : 对 于 基本 的 信息 ， 我 们 给 出 概要 的 总 结 ， 必 要 时 可 以 参考 标 
准 的 教科 书 和 一 些 基本 的 原始 资料 。 

强烈 推荐 读者 在 数学 计算 时 使 用 诸如 MAPLE 或 Mathematica 这 样 的 计算 机 软件 。 当 验证 本 
书 中 的 材料 或 求解 习题 结果 时 ， 这 些 软件 系统 可 以 帮助 摆脱 烦琐 的 计算 。 

相关 的 书籍 。 相 关 的 教科 书包 括 Knuth 的 The Art of Computer Programming; Gonnet 和 
Baeza-Yates 的 Handbook of Algorithms and Data Structure; Sedgewick 的 Algorithms; Graham, 
Knuth 和 Patashnik 的 Concrete Mathematics; Cormen、Leiserson 和 Rivest 的 Introduction to 


Algorithms。 本 书 可 以 看 作 是 对 这 些 著作 的 增补 ， 下 面 依 次 评述 。 
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实质 上 ， 本 书 最 接近 于 Knuth 的 开创 性 著作 。 不 过 ， 我 们 的 重点 是 在 分 析 的 数学 方法 上 ， 
而 Knuth 著 作 的 范围 广 而 全 ， 算 法 的 性 质 起 着 主要 的 作用 ， 而 分 析 的 方法 则 是 第 二 位 的 。 本 书 
可 以 作为 Knuth 的 著作 中 所 论 及 的 先进 结果 的 基础 准备 。 

我 们 还 讨论 了 自从 Knuth 的 书 出 版 以 来 始终 在 发 展 的 算法 分 析 中 的 方法 和 结果 。Gonnet 和 
Baeza-Yates 的 著作 是 这 些 结果 的 透彻 综述 ， 包 括 全 面 的 参考 文献 ; 它 主要 介绍 源 自 文献 的 一 
些 相关 结果 。 本 书 提供 了 通 向 该 文献 的 基本 预备 内 容 。 

我 们 也 努力 把 重点 放 在 基础 、 重 要 和 有 趣 的 算法 上 ， 像 Sedgewick 的 Algorithms 中 所 描述 
的 一 些 算法 ， 而 Graham、Knuth 和 Patashnik 的 Concrete Mathematics 则 几乎 全 部 侧重 在 数学 方 
法 方面 。 我 们 想 要 使 本 书 成 为 Graham、Knuth 和 Patashnik 的 书 中 所 讨论 的 基本 数学 方法 和 
Sedgewick 的 书 所 涉及 的 基本 算法 的 桥梁 。 

Cormen、Leiserson 和 Rivest 的 Introduction to hlgorithms 是 那些 提供 通 向 算法 的 “设计 和 
分 析 ” 研 究 文献 著作 的 代表 ， 一 般 是 基于 方法 性 能 的 粗略 的 最 坏 情 形 估计 的 。 当 需要 更 精确 
的 结果 时 (对 于 大 多 数 重要 的 方法 ) ， 更 复杂 的 模型 和 数学 工具 是 必 不 可 少 的 。Cormen、 
Leiserson 和 Rivest 把 重点 放 在 算法 的 设计 (通常 带 有 为 最 坏 情形 性 能 定 界 的 目的 ) 上 ， 而 解析 
结果 则 用 于 帮助 指导 算法 的 设计 。 另 一 方面 ， 我 们 的 书 是 对 他 们 的 书 以 及 类 似 的 书 的 补充 ， 
因为 我 们 侧重 于 算法 的 分 析 ， 特 别 是 对 那些 能 够 用 于 获取 可 以 预报 算法 性 能 的 详细 结果 的 方 
法 。 在 这 个 过 程 中 ， 我 们 也 考虑 与 各 种 经 典 数学 工具 的 关系 ， 第 1 章 全 部 用 来 描述 这 种 环境 。 

本 书 还 为 其 姐妹 篇 4nalytic Combinatorics 黄 定 了 基础 ， 那 本 书 以 更 广 的 视野 对 本 书 涉及 
的 材料 进行 一 般 的 处 理 ， 并 开发 了 高 级 方法 和 模型 ， 这 些 方法 和 模型 不 仅 在 算法 平均 情形 的 
分 析 中 ， 而 且 在 组 合 数学 中 ， 均 可 作为 新 的 研究 基础 。 对 于 阅读 那 本 姐妹 篇 ， 需 要 更 高 水 平 
的 数学 基础 ， 相 当 于 高 年 级 本 科 生 或 低 年 级 研究 生 所 应 具备 的 水 平 。 当 然 ， 认 真 学 习 本 书 也 
足以 具备 这 些 基础 。 毫 无 疑问 ， 使 得 本 书 充 分 有 趣 始终 是 我 们 的 目的 ， 读 者 将 会 惊喜 地 发 现 
本 书 涉及 更 先进 的 材料 。 

如 何 使 用 本 书 。 本 书 的 读者 在 离散 数学 和 计算 机 科学 方面 的 基础 很 可 能 有 相当 大 的 差异 。 
因此 ， 了 解 书 中 的 基本 结构 很 有 必要 : 全 书 总 共 八 章 ， 先 是 导论 性 的 一 章 ， 接 着 的 三 章 侧重 
于 数学 方法 ， 最 后 四 章 集中 讨论 算法 分 析 的 应 用 : 

引 论 

1. 算法 分 析 概 述 
离散 数学 方法 

2. 递归 关系 

3. 生成 函数 

4, 浙 近 逼近 
算法 与 组 合 结构 

5. 树 

6. 排列 

7. 串 与 trie 树 

8. 字 与 映射 

第 1 童 将 书 中 材料 恰当 地 进行 概括 ， 并 帮助 所 有 读者 理解 本 书 的 基本 目标 以 及 其 余 各 章 在 
满足 这 些 目标 方面 所 担当 的 角色 。 第 2 章 至 第 4 章 更 侧重 于 数学 ， 涉及 离散 数学 的 一 些 方法 ， 
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主要 讨论 一 些 基本 概念 和 方法 。 第 5 章 到 第 8 童 侧重 于 计算 机 科学 ， 包 含 组 合 结 构 的 一 些 性 质 ， 
与 基本 算法 的 关系 ， 以 及 若干 解析 结果 。 

虽然 本 书 是 自 完 备 的 ， 但 是 根据 教师 经 验 和 学 生 的 基础 ， 可 以 有 所 侧重 。 一 种 方法 是 更 
偏重 于 数学 ， 重 点 讲解 本 书 前 半 部 分 的 定理 和 证 明 ， 并 介绍 第 5 章 到 第 8 章 的 应 用 。 另 一 种 方 
法 是 更 偏重 于 计算 机 科学 ， 扼 要 地 讨论 第 2 章 到 第 4 章 中 的 主要 数学 工具 ， 而 着 重 讨论 本 书 第 
二 部 分 的 算法 题材 。 不 过 ， 我 们 主要 的 意图 是 大 部 分 的 学 生 通过 细心 地 通读 本 书 ， 能 够 同时 
学 到 数学 和 计算 机 科学 两 个 领域 中 新 的 东西 。 

具有 较 强 计算 机 科学 基础 的 学 生 可 能 已 经 见 过 本 书后 半 部 分 的 许多 算法 和 数据 结构 ， 但 
在 开始 的 时 候 他 们 的 数学 知识 并 不 多 ; 具有 较 强 数学 背景 的 学 生 很 可 能 发 现 数学 材料 很 熟悉 ， 
但 算法 和 数据 结构 或 许 有 些 生 疏 。 包 括 本 书 所 有 内 容 的 课程 可 以 帮助 这 两 类 学 生根 据 他 们 已 
有 的 知识 来 填补 知识 缺口 。 

在 每 章 末尾 列 出 的 参考 文献 以 及 散布 在 文中 的 数 百 道 习题 是 对 教材 的 补充 ， 它 们 将 鼓励 
读者 更 深刻 地 考虑 书 中 的 内 容 并 考查 原始 的 资料 。 

我 们 教授 本 书 的 经 验 已 经 证 明 ， 教 师 能 够 经 常 通过 基于 计算 的 实验 课 和 家 庭 作业 来 补充 
讲义 和 阅读 材料 。 这 里 所 涵盖 的 内 容 对 于 学 生 使 用 诸如 Mathematica 或 MAPLE 这 样 的 符号 处 
理 系统 来 深入 研习 专门 知识 是 一 个 理想 的 构架 。 通 过 与 经 验 研 究 比 较 而 使 数学 研究 得 以 确认 
的 经 验 对 于 许多 学 生 而 言 可 能 是 非常 有 价值 的 。 

致谢 。 我 们 非常 感谢 INRIA、 普 林 斯 顿 大 学 和 国家 科学 基金 会 ， 他 们 对 本 书 提供 了 主要 
的 支持 。 其 他 的 支持 由 布朗 大 学 、European Community (Alcom Project). Institute for 
Defence Analyses, Ministére de la Recherche et de la Technologie. 斯 坦 福 大 学 、Université 
Libre de Bruxelles 以 及 Xerox Palo Alto Research Center 提 供 。 本 书 耗 费 多 年 时 间 扎 著 ， 因 此 提 
供 支 持 的 个 人 和 组 织 的 名 单 很 长 ， 在 此 不 能 一 一 列 出 ， 深 为 抱歉 。 

Don Knuth 对 我 们 工作 的 影响 极为 重要 ， 这 从 教材 中 明显 可 以 看 出 。 

普林斯顿 、 巴 黎 以 及 普罗 维 登 斯 大 学 的 学 生 们 这 些 年 来 对 利用 这 些 材料 的 早期 版 本 授课 
的 课程 回 镇 了 有 益 的 信息 。 我 们 还 要 感谢 Philippe Dumas, Mordecai Golin 和 他 的 学 生 San 
Kuen Chan, Ka Po Lam, Ngok Hing Leung, Derek Ka-Cheong Lueng 和 King Shan Lui, 以 及 
三 位 不 具名 评论 家 对 手稿 的 详细 评论 。 


R.S. 
Ph. F. 
19954-9} , Corfu 





下 取 整 函数 

小 于 或 等 于 x 的 最 大 整数 
上 取 整 函数 

大 于 或 等 于 x 的 最 小 整数 
小 数 部 分 

x-|x] 
以 2 为 底 的 对 数 

log,N 
自然 对 数 

logN 


二 项 式 系数 
从 nn 项 中 选择 Kk 项 的 方法 数 
第 一 类 Stirling 数 
n 个 元 素 的 具有 k 个 圈 的 排列 数 


第 二 类 Stirling 数 


将 n 个 元 素 划 分 成 x 个 非 空子 集 的 方法 数 
黄金 分 割 

(1+V5)/2=1.618 03--- 
欧 拉 常数 
Stirling H & 

V2n = 2.506 62--- 





出 版 者 的 话 
专家 指导 委员 会 
译 者 序 

序 

前 言 

记号 解释 


第 1 章 算法 分 析 概 述 cee 
1.1 为 什么 要 对 算法 进行 分 析 …………………… 
1.2 计算 复杂 性 pp 
1.3 BAe reece etree recente tte 
LA 平均 情形 分 析 ………………… etree 
1.5 例 : 快速 排序 的 分 析 …………… eee eee 
参考 文献 
2.1 基本 性 质 ee 
2.2 一 阶 递归 corer crete reece eee nee es 
23 非 线性 一 阶 递 归 cee creer tree cence eee 
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第 1 章 算法 分 析 概 述 


计算 机 算法 性 质 的 数学 研究 已 经 扩展 到 一 个 颇 为 广大 的 范畴 ， 从 一 般 复 杂 性 研究 直到 特 
定 解 析 结 果 的 获得 。 在 这 一 章 ， 我 们 将 讨论 研究 算法 的 各 种 手段 中 具有 代表 性 的 例子 。 同 时 ， 
这 些 例 子 使 我 们 得 以 介绍 来 自 基本 的 和 具有 代表 性 领域 即 排序 算法 研究 的 各 种 经 典 的 结果 。 

首先 ， 我 们 将 要 考虑 算法 分 析 的 一 般 动 机 ， 以 及 算法 性 能 特征 的 各 种 研究 方法 之 间 的 关 
系 。 其 次 ， 讨 论 计 算 复杂 性 ， 并 把 一 个 “最 优 的 ”排序 算法 ， 即 归并 排序 (Mergesort) 作为 
例子 来 考虑 。 之 后 ， 再 对 具有 重要 使 用 价值 的 排序 算法 的 全 面 分 析 的 主要 方面 进行 考查 ， 这 
个 算法 就 是 快速 排序 (Quicksort)。 它 包括 研究 对 基本 快速 排序 算法 的 各 种 改进 ， 同 时 通过 一 - 
些 例子 阐明 ， 我 们 的 分 析 是 如 何 帮 助人 们 调整 参数 以 改进 算法 性 能 的 。 

本 章 将 把 我 们 的 研究 领域 纳入 到 一 些 相 关 领 域 之 中 ， 并 为 本 书 其 余部 分 的 研究 建立 一 个 
平台 。 在 第 2 章 到 第 4 章 ， 我 们 计划 介绍 基本 的 数学 概念 ， 这 些 概念 是 进行 基本 算法 分 析 所 必 
需 的 。 第 5 章 到 第 8 章 则 讨论 基本 算法 和 数据 结构 的 基本 组 合 学 性 质 。 由 于 在 计算 机 科学 中 使 
用 的 基本 方法 和 经 典 数学 分 析 之 间 存 在 着 紧密 的 联系 ， 因 此 我 们 在 本 书 中 同时 讨论 来 自 这 两 
个 方面 的 某 些 介绍 性 的 材料 。 


1.1 为 什么 要 对 算法 进行 分 析 


关于 这 个 基本 的 问题 ， 有 几 种 不 同 的 答案 ， 它 们 依赖 于 算法 的 环境 : 算法 的 预期 使 用 ; 
从 实用 性 和 理论 的 立场 上 看 ， 一 个 算法 与 其 他 算法 相 比 的 价值 ; 分 析 的 困难 程度 和 所 要 求 的 
答案 的 精确 性 。 

分 析 算 法 的 最 直接 的 原因 是 找 出 它 的 特性 ， 以 便 估 计 它 对 各 种 应 用 的 适用 程度 ， 或 在 相 
同 的 应 用 中 与 其 他 算法 进行 比较 。 我 们 注意 的 特征 最 常见 的 是 时 间 和 空间 这 样 一 些 基 本 的 资 
源 ， 尤 其 是 时 间 。 简 单 地 说 ， 我 们 想 要 知道 在 一 台 特 定 的 计算 机 上 实现 一 个 特定 算法 要 运行 
多 长 时 间 ， 以 及 需要 多 少 空间 。 一 般 说 来 ， 分 析 是 相对 独立 于 特定 实现 方法 的 一 一 我 们 侧重 
于 得 到 算法 基本 性 能 的 相关 结果 ， 这 些 算 法 能 够 用 来 算出 在 具体 的 机 器 上 对 于 实际 资源 需求 
的 精确 估计 。 

实践 中 ， 在 算法 和 它 的 实现 方法 的 特性 之 间 达 到 完全 独立 做 起 来 丽 怕 不 容易 。 算 法 实现 
的 质量 、 编 译 器 的 特性 、 机 器 的 结构 以 及 编程 环境 的 其 他 主要 方面 ， 都 将 对 性 能 产生 剧烈 的 
影响 。 我 们 必须 认识 到 这 些 影响 ， 这 样 才能 保证 分 析 的 结果 是 有 用 的 。 另 一 方面 ， 在 某 些 情 
况 下 ， 算 法 分 析 可 以 帮助 识别 那些 能 够 充分 利用 编程 环境 的 方法 。 

偶尔 有 些 性 质 很 重要 ， 但 它们 并 不 是 时 间 和 空间 ， 因 此 我 们 分 析 的 重点 也 要 相应 地 改变 。 
例如 ， 驱 动 电路 布线 装置 的 算法 可 能 用 以 确定 所 用 线 的 总 量 ， 数 值 问题 的 算法 可 能 要 确定 它 
提供 的 答案 的 准确 程度 。 再 有 ， 有 时 候 在 分 析 中 使 用 成 倍 的 资源 是 可 取 的 。 例 如 ， 使 用 大 量 
内 存 的 算法 可 能 比 使 用 很 少 内 存 也 能 得 到 的 算法 所 耗费 的 时 间 少 得 多 。 实 际 上 ， 进 行 仔细 分 
析 的 一 个 主要 的 动机 就 是 提供 准确 的 信息 ， 以 帮助 在 这 样 一 些 情况 下 作出 正确 的 权衡 决策 。 

术语 算法 分 析 (analysis of algorithms) 一 直 用 于 描述 两 种 相当 不 同 的 方法 ， 这 两 种 方法 
把 计算 机 程序 的 研究 置 于 科学 的 基础 之 上 ， 现 在 我 们 对 它们 依次 进行 讨论 。 





I 


第 一 种 方法 由 Aho、Hopcroft 和 Ullman[2] 所 提倡 ， 重 点 研究 确定 算法 最 坏 情 形 性 能 的 增长 
(“上 界 ”)。 这 种 分 析 的 主要 目标 就 是 确定 在 下 述 意 义 下 哪些 算法 是 最 优 的 : 它们 对 同一 问题 
的 任何 算法 最 坏 情形 的 性 能 可 以 证 明 一 个 匹配 的 “下 界 ”"。 有 时 称 这 种 类 型 的 分 析 为 计算 复杂 
性 (computational complexity), 不过， 这 个 术语 留 给 对 问题 、 算 法 、 语 言 和 机 器 之 间 关 系 的 
一 般 研究 或 许 更 妥当 。 

处 理 算法 分 析 的 第 二 种 方法 由 Knuth[13][14][15][17] 提 出 ， 主 要 通过 确定 最 佳 情形 、 最 坏 
情形 和 平均 情形 的 性 能 来 精确 地 刻画 算法 的 性 能 ， 使 用 的 是 一 套 可 以 精 化 的 方法 ， 在 需要 的 
时 候 能 够 得 出 更 加 精确 的 答案 。 这 种 分 析 的 主要 目标 是 当 运 行 在 特定 的 计算 机 上 的 时 候 ， 能 
够 准确 地 预测 特定 算法 的 性 能 特征 。 

我 们 可 以 把 这 两 种 方法 看 作 是 有 效 算 靶 的 设计 和 分 析 的 必需 阶段 。 当 面 对 求 解 一 个 新 问 
题 的 新 算法 的 时 候 ， 我 们 的 兴趣 在 于 形成 这 样 一 种 粗略 的 认识 : 新 算法 预期 能 有 多 好 ， 对 于 
同一 问题 它 比 其 他 的 算法 如 何 。 计 算 复 杂 性 研究 能 够 提供 这 种 认识 。 然 而 ， 在 这 样 一 种 粗略 
的 复杂 性 分 析 中 丧失 如 此 多 的 精度 ， 以 致 提供 不 了 使 我 们 预测 算法 具体 实现 的 性 能 的 特定 信 
息 ， 也 提供 不 了 将 一 个 算法 与 另外 的 算法 进行 正确 比较 所 需要 的 特定 信息 。 为 了 能 够 进行 这 
些 工 作 ， 我 们 需要 关于 算法 实现 、 所 使 用 的 计算 机 ， 以 及 本 书 我 们 将 要 看 到 的 ， 由 算法 使 用 
的 一 些 结构 的 数学 性 质 的 全 部 细节 。 计 算 复杂 性 可 以 看 成 是 形成 更 精练 、 更 准确 分 析 的 正在 
进行 的 过 程 的 第 一 步 ; 我 们 更 愿意 使 用 术语 算法 分 析 来 表示 整个 的 过 程 ， 其 目标 是 提供 所 需 
任意 精度 的 解决 方案 。 

对 算法 的 分 析 能 够 帮助 我 们 对 算法 更 深入 地 理解 ， 并 能 够 提出 有 根 有 据 的 改进 。 算 法 越 
复杂 ， 分 析 越 困难 。 在 分 析 过 程 中 ， 算 法 趋向 于 变 得 更 短小 、 更 简单 和 更 讲究 。 尤 为 重要 的 
是 ， 正 确 分 析 所 需要 的 仔细 全 面 的 审查 常常 使 得 算法 更 好 和 更 有 效 地 实现 。 分 析 要 求 对 算法 
全 面 的 理解 ， 这 种 理解 比 只 是 简单 得 出 行 得 通 的 实现 方法 远 为 全 面 和 深刻 。 实 际 上 ， 当 解析 
的 结果 与 经 验 研究 一 致 的 时 候 ， 我 们 将 会 确信 算法 的 合理 性 以 及 分 析 过 程 的 正确 性 。 

有 些 算法 是 值得 分 析 的 ， 因 为 它们 的 分 析 能 够 增强 现 有 的 数学 工具 集 。 这 样 一 些 算法 也 
许 实 用 价值 有 限 ， 但 可 能 具有 类 似 于 实用 价值 的 算法 的 性 质 ， 使 得 理解 它们 能 够 有 助 于 理解 
未 来 更 重要 的 方法 。 

另 一 方面 ,许多 算法 (有些 有 很 强 的 实用 价值 ， 有 些 则 很 少 甚至 没有 实用 价值 ) RAR 
杂 的 性 能 结构 ， 这 种 结构 具有 独立 的 数学 意义 。 其 算法 分 析 产 生 的 组 合 学 问题 的 活跃 成 分 导 
致 一 些 具 有 挑战 性 的 重要 的 数学 问题 ， 这 些 问 题 扩展 了 经 典 组 合 学 的 范畴 ， 有 助 于 揭示 计算 
机 程序 的 性 质 。 

为 了 清楚 地 表达 这 些 思想 ， 下 面 首先 从 计算 复杂 性 的 角度 ， 然 后 再 以 算法 分 析 的 观点 ，- 
详细 考虑 某 些 经典 的 结果 。 作 为 阐述 不 同 观点 的 实际 例子 ， 我 们 考查 一 些 排序 算法 (sorting 
algorithms ) ， 它 们 以 数值 顺序 、 字 母 顺 序 、 或 其 他 顺序 重新 排列 一 组 数据 。 这 是 一 个 重要 的 
实际 问题 ， 该 问题 仍然 是 广泛 研究 的 目标 ， 因 为 排序 程序 在 许多 应 用 中 起 着 核心 的 作用 。 


1.2 计算 复杂 性 


计算 复杂 性 的 主要 目标 是 把 算法 按照 它们 的 性 能 特征 进行 分 类 。 第 一 步 是 建立 表达 结果 
的 相应 数学 概念 : 

定义 ARASAN), A 

OSIN 表示 所 有 g8( 和 NN) 的 集合 ， 其 中 8(N) 满 足 当 N->wm 时 ，lg(N)/f(N)I 上 有 界 。 





QFN) 表示 所 有 g(N) 的 集合 ， 其 中 g( 和 N) 满 足 当 N 一 % 时 ，lg(N)/f(N) 以 一 个 (严格 的 ) 
正 数 为 其 下 界 。 | 

O(N) 表示 所 有 g(N) 的 集合 ， 其 中 g(N) 满 足 当 Nw 时 ，lg(N)/AN)| 既 上 有 界 又 下 
AR. 


这 些 概念 取 自 经 典 数论 ， 由 Knuth 在 1976 年 的 一 篇 论文 [16] 的 算法 分 析 中 提倡 使 用 。 在 对 
算法 性 能 的 界 的 数学 表述 方面 ， 这 些 记号 得 到 了 广泛 的 使 用 。 

大 O 记 法 提供 一 种 表达 上 界 的 方法 ; 大 RQ 记 法 提供 一 种 表达 下 界 的 方法 ; 而 大 @ 记 法 则 提 
供 一 种 表达 同时 有 上 界 又 有 下 界 的 方法 ,大 O 记 法 在 数学 中 最 普通 的 用 法 是 表示 渐 近 近似 性 质 ， 
我 们 将 在 第 4 章 对 它 进 行 详细 的 考察 。 这 个 记号 在 算法 分 析 中 也 比 其 余 两 个 记号 使 用 得 普遍 ， 
在 描述 算法 运行 时 间 的 表达 式 中 ， 它 一 般 表 示 相 对 小 “错误 ”的 项 。 记 号 和 6 直接 与 计算 复 
杂 性 相关 ， 不 过 类 似 的 记号 在 其 他 的 应 用 领域 也 在 使 用 〈 见 [16])。 

对 于 复杂 性 研究 ， 这 些 记号 的 重要 性 在 于 ， 它 们 实现 的 细节 被 忽略 的 常数 因子 所 隐藏 。 
由 于 常数 因子 被 忽略 ， 因 此 使 用 这 些 记 法 的 副作用 在 于 ， 使 用 它们 得 到 的 数学 结果 要 比 寻找 
. 更 精确 的 答案 简单 。 例 如 ,“ 自 然 ” 对 数 mNslog。.N 和 “二 进 制 ”对 数 lgN alog, N 经 常 出 
现 ， 但 是 ， 它 们 之 间 的 关系 是 相差 一 个 常数 因子 ， 因 此 ， 在 复杂 性 分 析 中 我 们 可 以 把 二 者 都 
看 成 是 O(log N). 

习题 1.1 证 明 f (N) =N 1g N+ ONE RES (N) = (N log N). 

作为 使 用 这 些 记号 研究 算法 性 能 特征 的 一 个 例子 ， 我 们 考虑 将 数组 a[1. .N] 中 的 数 集 排 
序 的 方法 。 输 入 是 数组 中 的 数 ， 顺 序 是 任意 的 并 且 是 未 知 的 ; 输出 为 该 数组 中 同样 这 些 数 ， 
但 以 递 升 的 顺序 排列 。 这 是 一 个 得 到 深入 研究 的 基本 问题 : 我 们 将 考虑 求解 该 问题 的 一 个 算 
法 ， 然 后 证 明 ， 从 精确 的 技术 意义 上 看 ， 算 法 是 “最 优 的 "。 

首先 ， 我 们 要 证 明 ， 使 用 著名 的 递归 算法 ， 即 归并 排序 (Mergesort) 能 够 有 效 地 解决 这 
个 排序 问题 。 归 并 排序 以 及 本 书 中 处 理 的 几乎 所 有 的 算法 均 在 Sedgewick[19] 中 有 详细 的 讨论 ， 
因此 我 们 这 里 只 给 出 简要 的 描述 。 对 于 各 种 算法 、 实 现 和 应 用 的 进一步 细节 有 兴趣 的 读者 ， 
可 以 参考 Cormen Leiserson#Rivest[5], Gonnet 和 Baeza-Yates[8]、Knuth[13][14][15]、 
Sedgewick[19] 等 人 的 著作 以 及 其 他 一 些 资料 。 

归并 排序 将 数组 从 中 间 分 开 ，( 递 归 地 ) 将 两 部 分 排序 ， 然 后 将 所 得 到 的 已 排序 的 子 文件 
合并 到 一 起 从 而 得 到 排序 结果 。 为 此 ， 该 算法 使 用 了 两 个 辅助 数组 bp 和 c ， 如 程序 1.1 所 示 。 通 
itmergesort(1, N) 调 用 该 过 程 将 数组 a[1. .N] 排 序 。 在 递归 调用 之 后 ， 排 序 的 前 一 半 
a[1..m] 被 拷贝 到 辅助 数组 b[1..m-1+1]， 而 排序 的 后 一 半 a[m+1..r] 被 措 贝 到 第 2 个 畏 
助 数组 c[ 1. .r-m] 。 然 后 ， 通 过 把 元 素 b[i] 和 c[j] 中 的 较 小 者 移 到 a[k] ， 相 应 地 使 i 或 j 
增 1 来 完成 合并 。 程 序 用 到 “警戒 标记 ”max 以 帮助 完成 当 一 个 辅助 数组 已 经 没有 元 素 时 将 另 
一 个 辅助 数组 剩 下 的 部 分 移 回 到 a， 此 处 假设 max 比 所 有 的 元 素 都 大 。 

习题 1.2 ”实现 一 种 归并 排序 ， 该 排序 将 数组 分 成 3 个 相等 的 部 分 ， 将 这 3 部 分 排序 ， 并 进 
行 3- 路 合并 。 赁 经验 比较 该 算法 与 标准 的 归并 排序 的 运行 时 间 。 

归并 排序 是 著名 的 分 治 算 法 (divide-and-conquer) 设计 范例 的 原型 ， 其 中 ， 一 个 问题 的 
解决 是 通过 (递归 地 ) 求解 更 小 的 一 些 子 问 题 并 利用 这 些 子 问题 的 解 来 求解 原 问题 而 得 到 的 。 
在 本 书 中 ， 我 们 将 分 析 许 多 这 样 的 算法。 更 一 般 地 ， 我 们 将 看 到 象 归并 排序 这 样 的 算法 的 递 
归结 构 如 何 直接 导致 它们 性 能 特征 的 数学 描述 。 

在 当前 环境 下 ， 归 并 排序 是 重要 的 方法 ， 因 为 它 能 够 保证 不 亚 于 任何 排序 算法 的 效率 。 
为 了 更 精确 地 表达 这 个 结论 ， 我 们 开始 分 析 归 并 排序 运行 时 间 的 榨 制 因素 ， 即 它 所 用 到 的 比 





程序 1.1 归并 排序 (Mergesort) 


procedure mergesort(l, r: integer); 
var i, j, k, m: integer; 
begin 


if r-l > 0 then 
begin 

m := (r+l) div 2; 
mergesort(1, m}; mergesort(m+1, r); 
for i := 1 to m-l+1 do b[{i] := a{l+i-1); 
for j := m+1 to r do clfj-mj ;= alj]; 
i := 1; j := 1; b[m-1+2]:= max; c[r-m+1] := max; 
for k := 1 to r do 


if bli] < efj] 
then begin a[k] := b[i]; i := i+1 end 
else begin a(k] := cli]; j := j+1 end; 
end; 
end; 


定理 1.1 (SHER) 为 将 N 个 元 素 的 数组 排序 ， 归 并 排序 使 用 N lg N+ O(V) 次 比较 。 

证 明 车 Cw 为 上 面 程序 将 N 个 元 素 排 序 所 用 的 比较 次 数 ， 则 排序 前 一 半 元 素 的 比较 次 数 就 
是 Ciwaj ， 而 排序 后 一 半 元 素 的 比较 次 数 则 是 Cir 合并 的 比较 次 数 是 N (对 于 下 标 k 的 每 个 
值 有 一 次 比较 )。 换 句 话 说 ， 归 并 排序 的 比较 次 数 由 下 面 的 递 推 关系 精确 描述 

Cy= Ca + Cw +N (N22, C, =0) (1-1) 
为 得 到 这 个 递 推 关系 的 解 的 性 质 的 启示 ， PTS BNE IATL: 
Con = 2Con-1 + 2" (n>1,C, =0) 

用 2? 除 方程 的 两 边 ， 我 们 发 现 





C, C C C 
2 = ai +1= A +2- dae shane 


这 就 证 明了 ， 当 N = 2°, Cy = NlgN; 对 于 一 般 的 W， 定 理 可 以 通过 从 式 (1-1) 归纳 证 明 。 

实际 上 ， 准 确 解 是 相当 复杂 的 ， 它 依赖 于 数 N 的 二 进 制 表示 的 性 质 。 在 第 2 章 我 们 将 详细 讨论 

如 何 求解 这 样 的 递 推 关系 。 a 
习题 1.3 求 出 描述 量 Cw+i -Cnw 的 递 推 关系 ， 并 利用 所 得 到 的 关系 证 明 


Cy = > (Lee | +2) 


习题 1.4 证 明 Cy = Nig N]+ N-20" 。 

习题 1.5 分 析 在 习题 1.2 中 提出 的 3 路 归并 排序 所 使 用 的 比较 的 次 数 。 

对 于 大 多 数 计算 机 ， 在 上 面 程序 中 所 用 到 的 基本 操作 的 相对 开销 将 相差 一 个 常数 因子 ， 
因为 它们 均 为 一 个 基本 指令 周期 的 整数 倍 。 再 有 ， 程 序 总 的 运行 时 间 将 在 比较 次 数 的 常数 倍 
范围 之 内 ， 因 此 归并 排序 的 运行 时 间 将 在 NlogN 的 常数 倍 范围 之 内 。 

从 计算 复杂 性 的 观点 来 看 ， 归 并 排序 证 实 NigN 是 排序 问题 固有 困难 性 的 一 个 “上 界 ”: 

存在 一 种 算法 ， 能 够 以 与 N log N 成 比例 的 时 间 将 任意 

N- 元 素 文件 排序 
这 个 结论 的 全 部 证 明 需 要 根据 相关 的 操作 和 花费 的 时 间 ， 审 慎 地 构造 所 用 的 计算 机 模型 ， 而 
结果 却 是 在 相当 宽松 的 假设 下 成 立 的 、 我 们 说 排序 的 时 间 复 杂 度 为 O (NlogN)。 
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习题 1.6 假设 归并 排序 的 运行 时 间 是 cNlgN + dN， 其 中 c 和 d 是 与 机 器 相关 的 常数 。 证 明 ， 
恕 果 我 们 在 特定 的 计算 机 上 实现 它 的 程序 并 对 某 个 值 N 观 察 运行 时 间 tw， 那 么 对 于 2N 我 们 可 以 
准确 地 估计 运行 时 间 为 2tv (1+1/gN)， 而 与 机 器 无 关 。 

习题 1.7 在 一 台 或 更 多 的 计算 机 上 实现 归并 排序 ， WRN = 50 000 时 的 运行 时 间 ， 并 用 
前 面 的 习题 预报 N = 100 000 时 的 运行 时 间 。 然 后 ， 观 察 N = 100 000 时 的 运行 时 间 并 计算 预报 
的 百分比 精度 。 

如 上 所 实现 的 归并 排序 的 运行 时 间 只 依赖 于 被 排序 的 数组 中 的 元 素 个 数 ， 而 不 依赖 于 它们 
排列 的 方式 。 对 于 许多 其 他 的 排序 方法 ， 其 运行 时 间 实际 上 可 以 作为 输入 数据 初始 排序 状态 
的 函数 在 变化 。 一 般 地 ， 在 复杂 性 研究 中 ， 我 们 最 感 兴趣 的 是 最 坏 情 形 的 性 能 ， 因 为 这 可 以 
对 算法 的 性 能 特征 提供 一 种 保证 ， 而 不 管 输入 的 是 什么 ; 在 对 一 些 特定 算法 的 分 析 中 ， 我 们 
最 感 兴趣 的 是 平均 情形 的 性 能 ， 因 为 它 可 以 提供 一 种 方式 来 预报 算法 对 “典型 ”输入 的 性 能 。 

我 们 总 是 在 寻找 更 好 的 算法 ， 自 然 产 生 一 个 问题 : 是 否 存在 一 种 排序 算法 ， 它 比 归 并 排 
序 有 更 好 的 渐进 性 能 ? 下 述 来 自 计 算 复 杂 性 的 经 典 结果 表明 ， 本 质 上 不 存在 这 样 的 排序 算法 。 


定理 1.2 (排序 的 复杂 度 ) ”任何 基于 比较 的 排序 程序 必然 至 少 用 到 [lgN!] > NIgN- 
Nin2) 次 比较 。 


证 明 “这 个 事实 的 全 部 证 明 可 以 在 [2] 或 [15] 中 找到 。 直 观 地 看 ， 由 每 次 比较 能 够 将 所 考 
虑 元 素 的 可 能 排列 数 最 多 减少 一 半 的 事实 可 以 推出 这 个 结果 。 由 于 在 排序 前 存在 N! 个 可 能 的 
排列 ， 而 我 们 的 目标 就 是 在 排序 后 得 到 其 中 的 一 个 排列 ， 因 此 比较 的 次 数 必然 至 少 为 使 得 N! 
在 减 到 小 于 1 之 前 始终 被 2 整除 的 除法 次 权 ， 即 [lgNI 。 由 Stirling 关 于 阶乘 函数 的 近似 公式 
( 见 定理 4.3 的 第 2 个 推论 ) 立即 得 到 该 定理 的 结论 。 | E 

从 复杂 度 的 观点 来 看 ， 这 个 结果 证 实 N log N 是 排序 问题 固有 困难 性 的 一 个 “下 界 ”: 

所 有 基于 比较 的 排序 算法 者 需要 以 与 Nlog N 成 比例 的 时 间 将 一 个 
N- 元 素 的 输入 文件 排序 

这 是 关于 一 整 类 算法 的 一 般 的 综述 ， 我 们 说 排序 方法 的 时 间 复 杂 度 是 Q(N log 和 N)。 这 个 结 
论 很 重要 ， 因 为 它 与 定理 1.1 的 上 界 吻 合 ， 从 而 证 明 归 并 排序 在 没有 算法 能 够 具有 更 好 的 渐 近 
运行 时 间 的 意义 上 是 最 优 的 , 我 们 说 排序 的 时 间 复 杂 度 是 B(N log 入 。 从 计算 复杂 性 的 观点 看 ， 
这 已 经 完成 了 排序 “问题 ”的 “ 解 ”* 匹配 的 上 界 和 下 界 已 经 被 证 明 。 

再 次 指出 ， 这 些 结果 在 相当 一 般 的 假设 下 是 成 立 的 ， 虽然 它 们 或 许 不 像 看 起 来 那样 一 般 。 
例如 ， 对 于 那些 并 不 使 用 比较 的 排序 算法 ， 这 个 结论 等 于 什么 也 没 说 。 事 实 上 ， 存 在 一 些 排 
序 方法 是 以 平均 线性 时 间 运 行 的 ， 这 些 算 法 是 基于 一 些 寻 址 计算 技巧 的 (如 在 第 8 章 讨论 的 那 
些 算法 )。 

习题 1.8 设 已 知 数组 a[1..N] 中 每 一 项 均 从 两 个 不 同 的 值 取 其 中 的 一 个 值 。 对 这 样 的 数 
组 给 出 一 种 排序 方法 ， 其 花费 的 时 间 与 N 成 比例 。 

习题 1.9 当 从 3 个 不 同 的 值 中 取 值 时 ， 给 出 上 一 道 习 题 的 答案 。 

在 定理 1.1 和 定理 1.2 的 证 明 中 ,我 们 忽略 了 关于 计算 机 和 程序 的 相应 模型 的 细节 。 计 算 复 
杂 性 的 本 质 就 是 研究 完善 的 模型 ， 在 这 样 的 模型 范围 内 可 以 评估 重要 问题 的 固有 困难 ， 并 得 
以 进一步 研究 “有 效 的 ”算法 ， 这 些 算法 体现 了 匹配 那些 下 界 的 上 界 。 对 于 许多 重要 问题 领 
域 ， 在 渐 近 最 坏 情 形 性 能 的 下 界 和 上 界 之 间 仍 然 存 在 显著 的 差距 。 计 算 复杂 性 提供 在 深入 研 
究 这 些 问 题 的 新 算法 方面 的 指导 。 我 们 需要 那些 能 够 降低 已 知 上 界 的 算法 ， 然 而 寻找 性 能 优 
于 已 知 下 界 的 算法 却 很 难 取 得 成 效 (除非 寻找 那 种 破坏 模型 的 条 件 的 算法 或 许可 以 一 试 ， 可 





是 模型 条 件 又 是 已 知 下 界 赖 以 存在 的 基础 ! )。 

因此 计算 复杂 性 提供 一 种 方法 ， 能 够 按照 算法 的 渐 近 性 能 将 算法 分 类 。 然 而 正 是 这 种 近似 
(“抛弃 常数 因子 ”) 分 析 的 过 程 常常 限制 了 我 们 准确 预报 特定 算法 性 能 特征 的 能 力 ， 虽 然 近 似 
分 析 扩 展 了 复杂 性 成 果 的 适用 性 。 更 重要 的 是 ， 复 杂 性 通常 是 基于 最 坏 情 形 的 分 析 ， 这 可 能 过 
于 悲观 ， 在 预报 算法 具体 性 能 上 不 如 平均 情形 分 析 实 用 。 对 于 诸如 归并 排序 这 样 一 些 最 优 算法 
这 么 做 不 是 很 贴切 ， 但 是 我 们 将 会 看 到 ， 平 均 情 形 分 析 却 能 够 帮助 我 们 发 现 ， 有 时 修 非 最 优 算 
法 在 实践 中 更 快 。 复 杂 性 可 以 帮助 我 们 鉴别 优秀 的 算法 ， 而 此 时 我 们 更 感 兴趣 的 是 精 化 分 析 以 
便 能 够 更 聪明 地 比较 并 改进 它们 。 为 此 ， 我 们 需要 对 所 用 特定 计算 机 性 能 特征 的 准确 认识 ， 以 
及 精确 确定 期 望 的 指令 执行 频率 的 数学 技巧 。 在 本 书 中 ， 我 们 专注 于 这 样 的 技巧 。 


1.3 算法 分 析 的 过 程 


虽然 上 面 对 排序 和 归并 排序 的 分 析 论 证 了 排序 问题 的 固有 “困难 ”， 但 是 ， 仍 然 存在 与 排 
E (和 归并 排序 ) 相关 的 许多 重要 问题 还 根本 没有 涉及 。 归 并 排序 的 实现 方法 在 特定 的 计算 
机 上 运行 预计 可 能 花费 多 长 时 间 ? 它 的 运行 时 间 如 何 与 其 他 O(N log N) 方 法 相 比 ? 《这 样 的 方 
法 有 很 多 。) 怎样 将 它 与 那些 平均 很 快 但 在 最 坏 情 形 或 许 没 那么 快 的 排序 方法 进行 比较 ? 如何 
将 它 与 那些 不 是 基于 元 素 间 比 较 的 排序 方法 进行 比较 ?要 回答 这 样 一 些 问题 ， 就 需要 更 详细 
的 分 析 。 本 节 我 们 简要 描述 如 何 进行 这 样 的 分 析 ， 然 后 给 出 对 另 一 种 排序 算法 ， 即 快速 排序 
的 分 析 的 应 用 实例 。 

为 了 分 析 算 法 ， 首 先 我 们 必须 识别 那些 根本 性 的 重要 资源 ， 使 得 详细 的 分 析 可 以 正常 地 、 
有 的 放 矢 地 进行 。 由 于 运行 时 间 在 这 里 是 最 相关 的 资源 ， 因 此 ， 我 们 用 研究 运行 时 间 的 术语 
来 描述 算法 的 过 程 。 一 个 算法 的 运行 时 间 的 完整 分 析 包 括 下 述 几 个 步骤 : 

“将 算法 完全 实现 。 

。 确定 对 于 每 个 基本 操作 所 需要 的 时 间 。 

“识别 那些 能 够 用 来 描述 基本 操作 执行 频率 的 未 知 的 重 。 

© 研究 出 一 种 对 于 输入 到 程序 的 数据 的 实际 模型。 

"假设 为 输入 建立 了 模型 ， 分 析 其 中 一 些 未 知 的 量 。 

。 将 每 个 操作 的 频率 乘 以 操作 的 时 间 ， 然 后 把 所 有 的 乘积 相 加 ， 计 算出 总 的 运行 时 间 。 

分 析 的 第 1 步 是 要 在 特定 的 计算 机 上 审慎 地 实现 算法 。 我 们 保留 用 术语 程序 〈program ) 
来 描述 这 样 一 种 实现 ， 于 是 一 种 算法 对 应 许多 的 程序 。 这 种 实现 不 仅 提供 了 有 具体 的 研究 目标 ， 
而 且 还 能 够 给 出 有 用 的 经 验 数 据 以 帮助 检验 我 们 的 分 析 。 算 法 的 实现 应 该 设计 得 可 以 有 效 地 
利用 资源 ， 而 在 过 程 中 过 早 过 分 地 强调 效率 却 是 不 对 的 。 事 实 上 ， 分 析 的 主要 应 用 是 对 更 好 
的 实现 提供 有 见识 的 指导 。 

下 一 步 ， 是 估计 构成 程序 的 每 一 种 指令 所 需要 的 时 间 。 通 常 这 可 以 非常 精确 地 完成 ， 不 
过 它 紧 密 地 依赖 所 使 用 计算 机 的 特性 。 另 一 种 方法 是 对 于 小 量 的 输入 直接 运行 程序 来 “估计 “ 
一 些 常 量 的 值 ， 或 者 总 体 上 间接 地 进行 ， 正 如 习题 1.6 中 所 描述 的 那样 。 在 本 书 中 ， 我 们 不 详 
细 考 虑 这 个 过 程 ， 而 是 把 精力 集中 在 分 析 中 “与 机 器 无 关 ” 的 部 分 。 

为 了 确定 程序 总 的 运行 时 间 ， 有 必要 研究 程序 的 分 支 结构 ， 用 未 知 的 数学 量 表示 程序 构 
成 指令 的 执行 频率 。 如 果 这 些 量 的 值 已 知 ， 那 么 我 们 可 以 直接 把 每 种 构成 指令 的 时 间 需 求 乘 
以 频率 ， 然 后 将 这 些 乘积 相 加 ， 从 而 得 到 整个 程序 的 运行 时 间 。 作 为 大 多 数 编程 环境 一 部 分 
的 靠 模 器 (profilers) 可 以 简化 这 项 工作 。 在 分 析 的 第 1 阶段 ， 我 们 专注 于 具有 大 频率 值 的 量 
或 对 应 大 开销 的 量 ， 原 则 上 分 析 能 够 被 精 化 以 得 到 足够 详细 的 解答 。 当 上 下 文 允许 时 ， 我 们 
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常常 把 算法 的 “开销 ”作为 “所 讨论 的 量 的 值 ”的 简称 。 

下 一 步 是 为 程序 的 输入 建立 模型 ， 以 形成 对 指令 频率 的 数学 分 析 的 基础 。 那 些 未 知 的 频 
率 值 依赖 于 对 算法 的 输入 : 输入 的 大 小 (我 们 通常 把 它 写 成 N)， 在 正常 情况 下 ， 是 用 来 表示 
结果 的 主要 参数 ， 不 过 那些 输入 数据 项 的 顺序 或 值 通 常 也 影响 着 运行 时 间 。 这 里 的 “建立 模 
型 ” 指 的 是 对 向 算法 典型 的 输入 的 精确 描述 。 例 如 对 于 排序 算法 ,通常 方 便 的 做 法 是 假设 输 
入 是 随机 排序 的 而 且 是 互 异 的 ， 虽 然 即 使 当 输入 数据 不 是 互 异 时 程序 通常 也 是 正常 运行 的 。 
对 于 排序 算法 ， 另 一 种 可 能 是 假设 输入 是 取 自 相对 大 的 范围 的 一 些 随机 数 ， 可 以 证 明 这 两 种 
模型 几乎 是 等 价 的 。 最 常见 的 ， 是 我 们 使 用 最 简单 的 “随机 ”输入 的 现 有 模型 ， 这 种 模型 党 
常 是 现实 的 。 对 于 同一 个 算法 可 以 使 用 几 种 不 同 的 模型 : 一 种 模型 的 选用 可 能 是 使 得 分 析 尽 
可 能 的 简单 ; 而 另 一 种 模型 可 能 更 好 地 反映 程序 将 被 使 用 的 具体 的 情况 。 

最 后 一 步 是 分 析 那 些 未 知 的 量 ， 假 设 输入 的 模型 已 经 建立 。 对 于 平均 情形 ， 这 些 量 可 以 
逐个 地 进行 分 析 ， 然 后 用 指令 的 次 数 乘 以 相应 的 平均 值 并 相 加 ， 最 后 得 到 整个 程序 的 运行 时 
间 。 对 于 最 坏 情 形 的 分 析 ， 得 到 整个 程序 的 准确 结果 通常 很 困难 ， 因 此 ， 常 常用 指令 的 次 数 
乘 以 各 个 量 的 最 坏 情形 的 值 ， 然 后 相 加 和 而 得 到 算法 的 一 个 上 界 。 


1.4 平均 情形 分 析 


在 本 书 中 ， 我 们 主要 讨论 适用 于 得 到 算法 平均 情形 性 能 结果 的 一 些 方法 。 当 然 ， 数 学 方 
法 一 般 说 来 适用 于 解决 与 算法 性 能 有 关 的 各 种 问题 ， 不 过 我 们 最 感 兴趣 的 还 是 对 于 一 组 “ 典 
型 ”输入 的 资源 使 用 情况 能 够 给 出 精确 的 表述 。 

初等 概率 论 有 许多 不 同 的 方法 计算 量 的 平均 值 。 当 这 些 方法 紧密 相关 时 ， 对 我 们 来 说 清 
楚 地 识别 两 种 计算 平均 值 的 不 同方 法 将 是 方便 的 。 

分 布 的 方法 。 令 [Iw 是 大 小 为 N 的 各 种 可 能 的 输入 (数据 ) 的 组 数 ，[Iw 是 使 算法 产生 开销 
k 的 、 大 小 为 N 的 输入 组 数 ， 于 是 Ty = Edie HEAT, 开销 是 /的 概率 为 [IITIA， 开销 的 数学 期 


望 为 
元 Ye 


算法 的 分 析 依赖 于 “计数 "。 存 在 多 少 大 小 为 N 的 输入 以 及 有 多 少 大 小 为 N 的 输入 使 得 算法 
开销 是 k? 这 些 就 是 计算 开销 为 上 的 概率 的 具体 步骤 ， 因 此 这 种 方法 恐怕 是 初等 概率 论 中 最 
直接 的 方法 。 

累积 的 方法 。 令 2 为 算 靶 对 所 有 大 小 是 N 的 输入 的 总 〈 或 累积 的 ) 开销 ( 即 ， Ev= Ze 人 Imw， 
但 问题 在 于 不 必用 这 种 方法 计算 2w)。 此 时 的 平均 开销 就 是 2Zw /[Iv。 算 法 的 分 析 依 赖 于 较 小 的 
特定 计数 问题 : 对 于 所 有 的 输入 ， 算 法 总 的 开销 是 多 少 ? 我 们 将 使 用 一 般 的 工具 ， 这 些 工具 
使 得 这 种 方法 颇具 魅力 。 

分 布 的 方法 给 出 完备 的 信息 ， 它 可 以 用 来 直接 计算 标准 差 和 概率 论 中 其 他 的 和 矩 。 我 们 将 
看 到 ， 当 使 用 其 他 方法 时 ， 间 接 (常常 是 更 简单 ) 的 方法 也 能 够 计算 这 些 矩 。 在 本 书 中 ， 虽 
然 我 们 倾向 于 使 用 累积 的 方法 ， 它 最 终 将 使 我 们 得 以 用 基本 数据 结构 的 组 合 学 性 质 考 虑 算法 
的 分 析 ， 但 是 我 们 还 是 两 种 方法 都 考虑 使 用 。 

许多 算法 解决 问题 是 通过 递归 地 求解 一 些小 的 子 问 题 来 完成 的 ， 因 此 它们 应 该 服从 平均 
开销 或 总 开销 必须 满足 的 递 推 关系 的 结论 。 从 算法 直接 得 到 递 推 关系 常常 是 一 种 自然 的 处 理 
方式 ， 下 一 节 的 例子 解释 了 这 个 过 程 。 
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不 管 平均 情形 的 结果 是 怎么 得 到 的 ， 我 们 还 是 对 平均 情形 的 结果 更 关注 ， 因 为 在 随机 输 
入 是 合理 模型 的 大 多 数 情形 下 ， 精 确 的 分 析 可 以 帮助 我 们 : 

* 对 于 相同 的 作业 比较 不 同 的 算法 。 

。 对 一 些 特殊 的 应 用 ， 预 报时 间 和 空间 需求 。 

© 比较 将 要 运行 同一 算法 的 不 同 的 计算 机 。 

可 以 把 平均 情形 的 结果 与 经 验 数 据 比 较 来 检验 算法 的 实现 、 模 型 和 分 析 。 最 终 的 目标 是 
得 到 足够 的 信心 使 得 用 平均 情形 的 结果 来 预报 在 一 些 特殊 应 用 的 各 种 环境 下 算法 将 如 何 表现 。 
例如 ， 我 们 可 以 算出 一 种 新 的 机 器 结构 对 某 个 重要 算法 性 能 的 可 能 的 影响 ， 通 过 分 析 这 往往 
是 能 够 做 到 的 ， 也 许 在 新 的 结构 出 现 之 前 就 能 做 到 。 

另 一 个 重要 的 例子 是 当 算法 本 身 含 有 可 以 调整 的 参数 的 情形 : 分 析 能 够 指出 参数 取 什 么 
值 最 优 。 


1.5 例 : 快速 排序 的 分 析 


为 了 叙述 这 套 方法 ， 我 们 在 这 里 描述 一 个 重要 的 特殊 算法 一 一 Quicksort 排 序 方 法 的 一 些 
结果 。 访 方法 在 1962 年 由 C.A.R.Hoare 发 现 ， 他 的 论文 [12] 是 算法 分 析 中 一 篇 较 早 的 和 深 具 洞 
察 力 的 例子 。 方 法 的 分 析 在 Sedgewick[20] 中 也 有 非常 详尽 的 论述 〈 还 可 见于 [22]) ， 我 们 在 这 
里 仅 作 重点 阐释 。 研 究 这 种 分 析 是 值得 的 ， 这 不 仅 因为 排序 方法 被 广泛 使 用 并 且 其 解析 结果 
直接 与 实际 相关 ， 而 且 还 因为 分 析 本 身 说 明 许 多 问题 ， 这 些 问 题 我 们 在 本 书 稍 后 将 会 遇 到 。 
特别 是 ， 同 样 的 分 析 事实 上 对 树 结 构 基 本 性 质 的 研究 也 是 适用 的 ， 而 树 结构 具有 广泛 的 重要 
性 和 适用 性 。 更 一 般 地 ， 对 Quicksort 的 分 析 指 出 我 们 如 何 着 手 分 析 一 类 广泛 的 递归 程序 。 

程序 1.2 是 Quicksort 排 序 算法 的 Pascal 语 言 实现 。 这 是 一 个 递归 程序 ， 它 通过 把 数组 
a[1:r] 划 分 成 两 个 独立 (更 小 ) 的 部 分 ， 然 后 将 这 两 部 分 分 别 排序 ， 从 而 达到 将 数组 
a[1:r] 排 序 的 目的 。 当 遇 到 r<1 的 空 的 子 数组 时 递归 终止 。 实 际 上 ， 大 小 为 1 ( 即 r = 1) 
的 子 数组 也 算是 已 经 “排序 ”了 ， 因 此 在 这 种 情形 下 也 就 没有 什么 需要 做 的 了 。 我 们 可 以 通 
过 把 程序 ff 语句 中 的 r > 1 改 为 > 1 体现 这 一 点 : 下 面 考查 这 种 改进 的 推广 。 这 种 类 型 的 改 
变 初 看 起 来 似乎 是 微不足道 的 ， 但 是 ， 我 们 将 看 到 ， 递 归 的 本 质 却 是 保证 程序 将 被 用 于 大 量 
的 小 文件 ， 而 使 用 这 种 类 型 的 简单 改进 可 以 达到 实质 上 的 性 能 提高 。 

程序 1.2 快速 排序 (Quicksort) 


procedure quicksort(1l, r: integer); 


var v, t, i, j: integer; 
begin 
if r >= 1 then 
begin 
v := alr); i := 1-1; j := r; 
repeat 
repeat i := i+1 until a[i} >= v; 
repeat j := j-1 until a[j] <= v; 
t := a[i]; ali] := a[j]; alj] := t; 
until j <= i; 
a{j] := a[i]; ali] := afr]; afr] := t; 


quicksort {1, i-1); 
quicksort (i+1, r) 
end 
end; 


0 


划分 数组 的 过 程 把 数组 中 最 后 位 置 上 的 元 素 (ZAA (partitioning element)) 放 到 它 应 
该 占据 的 正确 位 置 上 ， 使 得 所 有 较 小 的 元 素 都 在 它 的 前 面 ， 而 所 有 较 大 的 元 素 都 在 它 的 后 面 。 
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我 们 使 用 两 个 指针 完成 这 种 划分 ， 其 中 一 个 指针 从 左 扫描 数组 ， 另 一 个 则 从 右 进行 。 左 指针 
逐次 增 1 直 到 发 现 比 分 割 元 大 的 元 素 为止 ， 右 指针 逐次 减 1 直到 发 现 比 分 割 元 小 的 元 素 为 止 。 
然后 将 这 两 个 元 素 交 换 ， 过 程 继续 进行 直到 两 个 指针 相遇 为 止 ， 此 时 的 位 置 就 是 分 割 元 被 置 
入 的 位 置 。quicksort (1，N) 调 用 将 完成 数组 的 排序 ， 我 们 假设 a[0] 的 值 小 于 数组 中 任何 
其 他 元 素 的 值 ( 以 免 第 一 个 分 割 元 碰巧 是 最 小 的 元 素 )。 

存在 几 种 方法 实现 刚刚 描述 的 一 般 的 递归 策略 、 上 面 描 述 的 实现 方法 取 自 Sedgewick[19] 
(也 见于 [20])。 为 了 进行 讨论 ,假设 数组 a 包含 的 是 随机 排列 的 互 异 的 数 。 这 是 最 便于 分 析 的 
模型 ， 在 允许 元 素 相等 的 或 许 是 更 现实 的 模型 下 研究 这 个 程序 也 是 可 能 的 [21]。 当 输入 的 数组 
包含 互 异 的 数 时 ， 指 针 总 是 以 j=i-1 交 又 ,但 就 在 这 种 现象 被 检测 到 之 前 进行 了 一 次 “额外 ” 
的 交换 。 在 外 层 repeat 之 后 的 三 条 赋值 语 旬 等 价 于 撤销 这 次 交换 ， 然 后 a[ i] 和 a[r] 交 换 ， 
将 分 割 元 安排 就 位 。 

实现 算法 之 后 ， 分 析 的 第 一 步 是 估计 该 程序 单个 指令 的 资源 需求 。 这 对 于 任何 特定 的 计 
算 机 来 说 都 很 简单 ， 我 们 将 忽略 其 细节 。 例 如 ,“ 内 层 循环 ”指令 

repeat i:=i+l until a[i]j>=v 


在 典型 的 计算 机 上 可 能 被 译 成 如 下 的 汇编 语言 指令 


LOOP INC I, 1 # increment i 
CMP V, A[T] # compare V with A[i] 
BL LOOP # branch if less 


AA — KT EB ET A (ERA AESIA—%*). 

分 析 的 下 一 步 是 给 程序 中 指令 的 执行 频率 指定 变量 名 。 正 常情 况 下 ， 只 涉及 少数 的 真 变 
量 。 所 有 指令 的 执行 频率 可 以 用 这 些 少数 变量 表示 。 再 有 ， 我 们 希望 把 这 些 变量 和 算法 本 身 
而 不 是 和 任何 特定 的 程序 联系 上 。 对 于 Quicksort， 有 三 个 自然 的 量 被 涉及 : 

A 一 划分 阶段 数 
B - 交换 次 数 
C - 比较 次 数 
在 典型 的 计算 机 上 ， 总 的 运行 时 间 大 约 为 
4C+11B+35A ` (1-2) 


这 里 的 3 个 系数 的 精确 值 依赖 于 由 编译 器 产生 的 汇编 语言 程序 以 及 所 用 计算 机 的 特性 ， 上 面 给 
出 的 值 是 典型 的 情况 。 对 在 同一 台 计 算 机 上 实现 的 不 同 算法 进行 比较 时 ， 这 样 的 表达 式 是 相 
当 有 用 的 。 事 实 上 ， 即 使 Mergesort 是 “最 优 ” 的 ，Quicksort 仍 具有 重要 实际 价值 的 原因 在 于 ， 
其 每 次 比较 的 开销 (C 的 系数 ) 很 可 能 比 Mergesort 明 显 地 低 ， 这 就 导致 在 一 般 的 实际 应 用 中 
Quicksort 的 运行 时 间 显著 地 降低 。 


定理 1.3 (Quicksort) 为 将 N 个 随机 顺序 的 互 异 元 素 的 数组 排序 ，Quicksort 平 均 使 用 
N 个 划分 阶段 
X(N + 1)(Hy,; — 1) = 2NInN — 0.846N 次 比较 
(N + 1)(Hy.1 — 5/2)/3 + 1/2 = 0.333NinN - 1.346N 次 交换 


证 明 首先 ， 我们 注意 这 里 精确 的 答案 由 调和 数 


Hy = dik 
1< N 
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表示 ， 它 是 我 们 在 算法 分 析 中 很 可 能 要 遇 到 的 许多 著名 的 “特殊 ”数列 中 的 第 一 个 。 

和 Mergesort 一 样 ，Quicksort 的 分 析 涉 及 确定 和 求解 递 推 关 系 ， 这 些 关 系 直接 反映 上 面 给 
出 的 程序 的 递归 特性 。 不 过 此 时 这 些 递归 必须 基于 关于 输入 的 概率 表述 。 如 果 Cw 是 将 N 个 元 素 
排序 的 平均 比较 次 数 ， 那 么 我 们 有 Ce = 0 以 及 


CNH, D Ca + cn) (N>0) (1-3) 

为 了 得 到 总 的 平均 比较 次 数 ， 我 们 把 第 一 次 划分 阶段 的 比较 次 数 (N + 1) 加 到 用 于 划分 后 的 子 

文件 的 比较 次 数 中 。 当 分 割 元 为 第 /个 最 大 元 素 FETS ISN, 它 以 概率 1/N 出 现 ) 时， 

则 划分 后 这 些 子 文件 大 小 为 |- 1 和 N -jo 

现在 ， 分 析 被 简化 成 数学 问题 式 (1-3)， 它 不 依赖 于 程序 或 算法 的 性 质 。 这 个 递 推 关系 多 

DEER (1-1) 复杂 ， 因 为 右边 直接 依赖 于 所 有 前 面 的 值 ， 而 不 只 是 一 部 分 的 值 。 尽 管 如 此 ， 
式 (1-3) 的 求解 并 不 困难 : 首先 在 和 的 第 二 部 分 中 把 j 变 成 N - j+ 1， 得 到 

Cy (NEDA Yon 


IKIN 


(N >0) 


然后 乘 以 N 并 减 去 对 于 N 一 1 时 的 同一 个 公式 ， 消 掉 求 和 项 后 得 到 : 
NC, -(N-1)Cy.. =2N+2Cy, (N>1) 
再 重新 排列 各 项 ， 得 到 一 个 简单 的 递归 
NC, = (N+ DCv +2N (N>1) 
两 边 除 以 NOV + 1)， 得 到 
Cy _ Cna, 2 


N+1 N N+1 











重复 代入 ， 最 后 剩 下 
CG, Sk 
N+1 2 3< LEN 
这 就 完成 了 证 明 ， 注 意 C, = 2. 
如 上 所 述 ， 每 个 元 素 恰好 用 于 一 次 划分 ， 因 此 阶段 数 总 是 V。 通 过 对 第 一 次 划分 阶段 的 平 
均 交 换 次 数 的 计算 ， 平 均 的 交换 次 数 可 以 从 这 些 结果 中 找 出 。 
定理 所 叙述 的 近似 结果 由 著名 的 调和 数 近似 式 H ~ In N + 0.57721… 得 到 。 我 们 将 在 下 面 
考虑 这 些 近 似 并 在 第 4 章 进行 详细 的 讨论 。 E 
习题 1.10 给 出 Quicksort 对 N 个 元 素 所 有 N! 种 排列 进行 排序 所 使 用 的 总 的 比较 次 数 的 递归 。 
习题 1.11 证 明 ， 在 划分 一 个 随机 排列 后 得 到 的 两 个 子 文件 本 身 还 都 是 随机 排列 。 然 后 证 
明 ， 如 果 右 指针 初始 化 在 j:=r+1 来 进行 划分 ， 则 情况 会 有 不 同 。 
习题 1.12 按照 上 面 的 步骤 求解 递 推 关 系 
2 
Ay -+ 广 An (N >0) 
习题 1.13 证 明 在 第 一 次 划分 阶段 (在 指针 交叉 之 前 ) 平均 交换 次 数 为 (N - D6, (Ak, 
根据 递 轨 的 线性 性 质 ，By = 工 Cv -Aw 。) 
图 1-1 指 出 ， 定 理 1.3 的 解析 结果 如 何 与 生成 随机 输入 数据 到 程序 并 计算 所 用 比较 次 数 后 算 
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出 的 经 验 结果 进行 比较 。 这 些 经 验 结果 (对 所 示 N 的 每 个 值 1000 次 试验 ) 概括 为 在 中 位 数 上 的 
一 点 和 跨越 顶 和 底 四 分 位 点 的 竖 线段 ( 见 [23]) ; 解析 结果 为 平滑 曲线 ， 它 以 对 应 标准 差 的 灰 
色 区 域 拟 合 定理 1.3 给 出 的 公式 。 当 我 们 在 后 面 考虑 分 布 时 再 对 它 进行 讨论 。 正 如 所 料 ， 图 中 
拟 合 得 非常 好 。 
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图 1-1 Quicksort 比 较 计 数 : 经 验 结果 和 解析 结果 

定理 1.3 和 式 (1-2) 意味 着 ， 对 于 上 面 描述 的 特定 机 器 ，Quicksort 应 该 需要 大 约 
11.667NinN ~ 16.810N 步 将 一 个 N 元 素 的 随机 排列 排序 ， 而 对 于 其 他 机 器 也 可 以 像 在 式 (1-2) 
和 定理 1.3 之 前 的 讨论 那样 ,通过 考查 机 器 的 特性 得 到 类 似 的 公式 。 这 样 的 公式 可 以 用 来 预报 在 
一 台 特 定 机 器 上 Quicksort 的 运行 时 间 (具有 很 高 的 精度 )。 更 重要 的 是 ， 它 们 可 以 用 来 计算 和 
比较 算法 的 各 个 变量 ， 并 提供 效率 的 量化 证 据 。 

由 于 适当 注意 细节 能 够 可 靠 处 理 机 器 依赖 性 ， 因 此 在 本 书 中 通常 我 们 将 致力 于 分 析 像 
“比较 ”和 “交换 ”这 样 的 一 般 算法 相关 的 量 。 这 不 仅 使 我 们 把 焦点 集中 在 主要 的 分 析 技 巧 上 ， 
而 且 还 能 够 扩展 结果 的 适用 性 。 例 如 ， 排 序 问题 一 个 稍微 广泛 的 应 用 是 考虑 把 一 些 记录 
(record) 作为 要 排序 的 项 ， 这 些 记录 除 排序 关键 字 (key) 外 还 包含 一 些 其 他 信息 ， 因 此 访问 
一 个 记录 (依赖 于 记录 的 大 小 ) 可 能 要 比 进行 一 次 比较 (依赖 于 记录 和 关键 字 的 相对 大 小 ) 
昂贵 得 多 。 此 时 ， 从 定理 1.3 可 知 ，Quicksort 大 约 比 较 关 键 字 2NInN 次 ， 移 动 记录 约 0.667NInN 
次 ， 而 且 我 们 能 够 计算 开销 的 更 精确 的 估计 值 或 在 适当 的 时 候 与 其 他 算法 进行 比较 。 

Quicksort 程 序 可 以 以 几 种 方法 改进 ， 使 它 在 许多 计算 环境 下 成 为 有 力 的 排序 方法 。 甚 至 
对 于 一 些 复杂 得 多 的 改进 版 的 快速 排序 都 可 以 进行 完善 的 分 析 ， 而 且 能 够 得 到 平均 运行 时 间 
的 表达 式 ， 并 紧密 地 匹配 所 观察 到 的 经 验 数据 [22]。 当 然 ， 提 出 的 改进 方法 越 复杂 ， 分 析 就 越 
复杂 。 有 些 改进 可 以 通过 扩展 上 面 给 出 的 论证 来 处 理 ， 不 过 ， 也 有 些 改进 则 需要 更 强大 的 解 
析 工 具 。 

小 的 子 文件 。Quicksort 最 简单 的 变种 基于 下 面 的 观察 结果 : 对 于 非常 小 的 文件 (例如 ， 
大 小 为 2 的 文件 可 以 用 一 次 比较 和 可 能 还 有 一 次 交换 完成 排序 ) ， 该 方法 排序 不 是 非常 有 效 ， 
因此 ， 对 于 更 小 的 子 文件 应 该 使 用 更 简单 的 排序 方法 。 下 面 的 习题 指出 如 何 扩展 上 面 的 分 析 
来 研究 一 种 混合 算法 ， 其 中 “插入 排序 ”( 见 6.6 节 ) 用 于 大 小 小 于 M 的 文件 。 此 时 ， 分 析 方 法 
可 以 用 来 帮助 选择 参数 M 的 最 优 值 . 

习题 1.14 当 用 Quicksort 将 一 个 大 小 为 N 的 随机 文件 排序 时 ， 平 均 遇 到 多 少 大 小 为 2 或 更 
小 的 子 文件 ? 
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习题 1.15 如 果 把 前 面 Quicksort 实 现 程序 的 第 1 行 变 为 


if r - 1<M then insertionsort(1, r) else 


见 6.6 节 ) 那么 排序 N 个 元 素 的 总 比较 次 数 由 下 面 的 递归 描述 


Nalti D Cn +C,- (N> M) 
C _ NiSln 
y= 


= -1) (N < M) 


照 定理 1.3 证 明 中 的 做 法 准确 地 解 出 该 递归 。 
习题 1.16 在 前 面 习 题 的 管 案 中 忽略 小 项 (那些 明显 小 于 N 的 项 )， 求 出 函数 1(M)， 使 得 
比较 次 数 近 似 地 为 
2NInN + f(M)N 


画 出 函数 fF(M)， 并 求 出 使 该 函数 最 小 化 的 几 的 值 。 

习题 1.17 ” 当 M 变 大 时 ， 比 较 次 数 又 从 刚刚 得 到 的 最 小 值 增 加 。M 必 须 多 大 才能 使 比较 次 
数 超过 原来 (在 M = 0 时 ) 的 数 ? 

三 数 中 值 Quicksort。 对 Quicksort 的 自然 改进 就 是 使 用 如 下 取样 : 通过 选取 一 个 小 样本 ， 
然后 使 用 它们 的 中 值 作为 分 割 元 ， 估 计 分 割 元 更 可 能 接近 文件 的 中 值 。 例 如 ， 如 果 我 们 就 用 3 
个 元 素 作为 样本 ， 那 么 这 种 “三 数 中 值 ”Quicksort 所 需要 的 比较 次 数 由 下 面 的 递归 描述 


(N -k)(k-1) 
Cy =N+1 A (Cpa + Cg N>3 
+ +d, (3) CC (>?) (1-4) 
3 
N 
其 中 ， (3 是 二 项 式 系 数 ， 即 从 N 项 中 选取 3 项 的 方式 的 数目 。 因 为 第 个 最 小 元 是 分 割 元 的 概率 


N 
Wy (N — kk - v/ ( 3 (与 正常 Quicksort 的 1/N 相 对 )， 所 以 上 式 成 立 。 我 们 希望 能 够 求解 这 种 递 


归 以 便 能 够 确定 使 用 多 大 的 样本 以 及 何 时 切换 到 插入 排序 。 不 过 ， 这 样 的 递归 需要 比 迄 今 所 
使 用 的 方法 更 复杂 的 技巧 。 在 第 2? 章 和 第 3 章 中 ， 我 们 将 会 看 到 求解 这 样 一 些 递归 更 精确 的 解 
的 方法 ， 这 些 方法 能 够 确定 像样 本 大 小 以 及 对 于 小 的 子 文件 实施 截止 操作 这 样 一 些 参数 的 最 
优 取 值 。 沿 着 这 些 方面 广泛 的 研究 已 经 得 到 结论 : 对 于 一 般 的 实现 方法 而 言 ， 三 数 中 值 
Quicksort 使 用 从 10 到 20 范 围 的 截止 点 将 接近 达到 最 优 的 性 能 。 

基数 - 交换 排序 。Quicksort 的 另 一 种 变化 是 利用 下 面 的 事实 : 关键 字 可 以 看 成 是 二 进 制 串 。 
我 们 进行 划分 不 是 比较 文件 中 的 关键 字 ， 而 是 通过 把 前 导 位 是 比特 0 的 关键 字 置 于 前 导 位 是 比 
特 1 的 关键 字 的 前 面 来 划分 文件 的 。 然 后 ， 所 得 到 的 子 文件 以 同样 的 方式 使 用 第 2 个 比特 位 独 
立地 再 行 划分 ， 如 此 等 等 。 这 种 变化 叫做 “基数 -交换 排序 ”或 “基数 Quicksort 排 序 "。 这 种 
变化 怎么 与 基本 算法 比较 呢 ? 为 了 回答 这 个 问题 ， 首 先 我 们 必须 注意 ， 由 于 随机 的 比特 位 组 
成 的 关键 字 基本 上 不 同 于 随机 的 排列 ， 因 此 需要 不 同 的 数学 模型 。 这 种 随机 “比特 串 ” 模 型 
或 许 更 现实 ， 因 为 它 反映 了 具体 的 表示 法 ， 但 是 这 两 个 模型 可 以 被 证 明 大 致 等 价 。( 这 个 问题 
将 在 第 7 章 更 详细 地 讨论 。) 使 用 类 似 于 上 面 给 出 的 论证 可 以 证 明 ， 由 这 种 方法 所 需要 的 比特 
位 比较 的 平均 次 数 由 下 面 的 递归 描述 
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实际 上 这 是 比 上 面 给 出 的 更 难 求解 的 递 推 关 系 一 一 我 们 在 第 3 章 将 会 看 到 生成 函数 如 何 用 于 把 
这 个 关系 转变 成 Cw 的 显 式 公 式 ， 而 在 第 4 章 和 第 7 章 我 们 将 看 到 如 何 得 到 一 个 近似 解 。 

这 类 分 析 方 法 适用 性 的 一 种 局 限 在 于 上 面 所 有 的 递 推 关系 均 依 赖 算法 的 “保持 随机 性 ” 
特性 : 如 果 原 始 文件 是 随机 顺序 的 ， 那 么 可 以 证 明 ， 划 分 后 的 子 文件 还 是 随机 上 顺序 的 。 算 法 
的 实现 者 可 以 不 受 这 样 的 限制 ， 该 算法 广泛 使 用 的 许多 变种 也 确实 不 具有 这 个 性 质 。 不 过 ， 
这 些 变种 分 析 起 来 似乎 特别 困难 。 幸 运 的 是 〈 从 分 析 学 家 的 观点 看 )， 经 验 研究 指出 ， 它 们 的 
性 能 也 不 好 。 因 此 ， 虽 然 不 能 解析 地 量化 ， 但 随机 性 保持 的 要 求 似 乎 能 够 产生 更 精致 更 有 效 
的 Quicksort 实 现 方法 。 尤 为 重要 的 是 ， 保 持 随 机 性 的 算法 确实 得 到 性 能 的 改进 ， 这 些 改进 可 
以 完全 从 数学 上 量化 ， 正 如 上 面 所 描述 的 。 

在 Quicksort 的 实用 变种 的 开发 方面 ， 数 学 上 的 分 析 起 着 重要 的 作用 。 我 们 将 看 到 ， 有 许 
多 其 他 要 考虑 的 问题 。 在 那里 ， 详 细 的 数学 分 析 成 为 算法 设计 过 程 的 重要 组 成 部 分 。 

1.6 渐 近 逼近 

上 面 给 出 的 Quicksort 平 均 运行 时 间 的 结论 产生 一 个 准确 结果 ， 但 是 我 们 还 给 出 一 个 以 著 
名 函数 表示 的 更 简洁 的 近似 表达 式 ， 这 些 著名 函数 还 可 以 用 来 计算 非常 精确 的 数值 结果 。 我 
们 将 要 看 到 ， 常 常 出 现 这 样 的 情况 : 准确 的 结果 不 是 现成 可 用 的 ， 或 至 少 近似 结果 的 获得 和 
解释 要 容易 得 多 。 算 法 分 析 的 目标 在 理想 情况 下 应 该 是 获得 准确 的 结果 。 从 注重 实效 的 观点 
来 看 ， 它 或 许 更 依赖 于 我 们 的 一 般 目标 ， 即 能 够 使 有 用 的 性 能 结论 尽量 得 到 简明 但 却 是 精确 
的 近似 答案 。 

为 此 ， 我 们 需要 使 用 处 理 这 些 和 逼 近 的 经 典 技巧 。 在 第 4 章 ， 我 们 将 考查 欧 拉 -麦克 劳 林 
(Euler-Maclaurin ) 求 和 公式 ， 它 提供 一 种 利用 积分 估计 求 和 的 方法 。 因 此 ， 我 们 可 以 通过 


计算 i 1 
h= X, Laf de = InN 
fink Px 


JGR WARM. Het, KT“ 的 含义 还 可 以 精确 得 多 ，( 例如 ) 我 们 可 以 断言 Hy = jnN +y + 
1/(2N) + O(IN2) ， 其 中 y = 0.57721… 是 一 个 常数 ， 在 分 析 中 叫做 欧 拉 常数 (Euler’s constant). 
虽然 隐 含 在 大 O 记 号 中 的 那些 常数 没有 指定 ， 但 是 这 个 公式 还 是 提供 了 一 种 方法 估计 HH 的 值 。 
随 着 N 的 增加 ， 公 式 的 精度 愈加 精确 。 此 外 ， 如 果 我 们 需要 更 好 的 精度 ， 那 么 我 们 可 以 得 到 
歼 , 的 一 个 精确 到 O(N-3) 甚 至 O(CV9 的 公式 ， 其 中 上 是 任意 常数 。 这 样 的 近似 叫做 渐 近 展开 
(asymptotic expansion ) ， 它 们 是 算法 分 析 的 核心 ， 是 第 4 章 要 讨论 的 内 容 。 

渐 近 展开 的 使 用 可 以 看 作 是 提供 精确 结果 的 理想 目标 和 提供 简洁 近似 结果 的 实际 需要 之 
间 的 一 种 折 中 。 事 实 上 ， 一 方面 如 果 需 要 的 话 ， 我 们 常常 有 能 力 得 到 一 个 更 准确 的 表达 式 ， 
但 另 一 方面 ， 我 们 又 没有 这 种 需要 ， 因 为 只 含有 少数 几 项 的 表达 式 〈 如 上 面 玉 的 公式 ) 已 能 
够 使 我 们 将 答案 计算 到 多 位 小 数 的 精度 。 一 般 我 们 还 是 使 用 = 记号 将 结果 求 和 而 不 用 命名 一 
些 无 理 常数 ， 例 如 ， 定 理 1.3 中 的 结论 就 是 如 此 。 

此 外 ， 准 确 结果 和 渐 近 近似 值 都 服从 概率 模型 中 固有 的 不 准确 性 (这 种 模型 通常 都 是 现 
实 的 理想 化 ) 并 随机 波动 。 表 1-1 显 示 对 各 种 大 小 随机 文件 进行 Quicksort 的 运行 时 间 的 准确 、 
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近似 和 经 验 的 值 。 准 确 值 和 近似 值 是 从 定理 1.3 给 出 的 公式 算出 的 ; “经 验 ” 值 是 由 小 于 105 
的 随机 正 整 数组 成 的 100 个 文件 测 出 的 平均 值 。 这 不 仅 测 试 我 们 已 经 计 论 的 渐 近 到 近 ， 而 且 也 
测试 我 们 使 用 的 随机 排列 模型 中 固有 的 “近似 ”( 忽 略 相等 关键 字 )。 当 出 现 相 等 关键 字 时 ， 
对 Quicksort 的 分 析 在 Sedgewick[21] 中 处 理 。 


， 表 1-1 由 Quicksort 使 用 的 平均 比较 次 数 


文件 大 小 f 准确 解 近似 值 经 验 值 
10 000 175 771 175 746 176 354 
20 000 379 250 379 219 374 746 
30 000 593 188 593 157 583 473 
40 000 813 921 813 890 - 794 560 
50 000 1 039 713 1 039 677 1 010 657 
60 000 1 269 564 1 269 492 1231 246 
70 000 1 502 729 1 502 655 1 451 576 
80 000 1 738 777 1 738 685 1 672 616 
90 000 1 977 300 1 977 221 1 901 726 

100 000 2 218 033 2 217 985 2 126 160 





习题 1.18 “在 由 104 个 小 于 105 的 随机 整数 组 成 的 文件 中 有 多 少 关键 字 可 能 等 于 该 文件 中 某 
个 另外 的 关键 字 ? 模拟 运行 或 进行 数学 分 析 〈 借 助 于 数学 计算 系统 的 帮助 )， 或 二 者 都 做 。 

习题 1.19 用 由 小 于 M 的 随机 正 整 数组 成 的 一 些 文件 试验 ， 其 中 MM = 10 000、1000、100 
或 其 他 一 些 值 。 将 Quicksort 施 于 这 些 文件 的 性 能 与 作用 在 相同 大 小 的 随机 排列 上 的 性 能 进行 
比较 。 描 述 使 随机 排列 模型 不 准确 的 情形 的 特征 。 

习题 1.20 讨论 用 类 似 于 表 1-1 的 表 显 示 Mergesort 的 想法 。 

在 计算 复杂 性 方面 ， 大 O 记 号 用 来 隐蔽 所 有 排序 的 细节 : 语句 “Mergesort 需 要 OCNlogN) 
次 比较 ” 除 算法 、 实 现 和 计算 机 最 基本 的 特征 外 隐藏 了 所 有 的 细节 。 在 算法 分 析 中 ， 渐 近 展 
开 在 保留 了 最 重要 的 信息 的 同时 ， 提 供给 我 们 一 种 可 控 的 方式 隐藏 不 相关 的 细节 ， 特 别 是 所 
涉及 的 常数 因子 。 最 强大 和 一 般 的 解析 工具 直接 产生 渐 近 展开 ， 因 此 常常 提供 那些 描述 算法 
特性 的 、 简 洛 而 准确 的 表达 式 的 简单 直接 结论 。 可 是 ， 有 时 在 其 他 方法 可 用 的 情况 下 ， 我 们 
却 可 能 使 用 渐 近 估计 来 提供 对 程序 性 能 的 更 精确 的 描述 。 


1.7 分 布 


一 般 说 来 ， 概 率 论 告诉 我 们 ， 关 于 开销 分 布 IIw 的 其 他 事实 也 和 我 们 对 算法 性 能 特征 的 理 
解 相 关 。 幸 运 的 是 ， 对 事实 上 我 们 在 算法 分 析 中 研究 的 所 有 例子 ， 实 际 上 知道 平均 值 的 渐 近 
估计 就 足以 作出 可 靠 的 预报 。 我 们 这 里 回顾 一 些 基 本 的 想法 。 那 些 根本 不 熟悉 概率 论 的 读者 
可 以 参考 任何 一 本 标准 的 教材 ， 例 如 [6]。 

由 Quicksort 对 小 的 N 所 使 用 的 比较 次 数 的 完整 的 分 布 在 图 1-2 中 表 出 。 对 于 N 的 每 一 个 值 画 
HCN! 使 Quicksort 用 到 K 次 比较 的 那些 输入 的 比例 。 每 条 曲线 由 于 是 完整 的 概率 分 布 从 
而 面积 为 1。 由 于 平均 2NinN + O(V) 随 着 N 增 加 而 增加 ， 因 此 这 些 曲线 向 右 移动 。 对 同样 这 组 
数据 的 稍微 不 同 的 观察 在 图 1-3 中 描述 ， 其 中 ， 每 条 曲线 的 水 平 轴 适 当地 伸缩 以 便 把 平均 值 近 
似 地 置 于 中 央 ， 并 且 稍 微 平移 以 便 分 开 这 些 曲线 。 可 以 看 出 ， 该 分 布 收敛 到 一 个 “极限 分 布 。 
对 于 我 们 在 本 书 中 研究 的 许多 问题 ， 不 仅 像 这 样 的 极限 分 布 确实 存在 ， 而 且 我 们 还 能 够 准确 





地 刻画 它们 的 特征 。 对 于 许多 其 他 的 问题 ， 包 括 Quicksort， 这 是 一 个 重要 的 挑战 。 但 是 ， 显 
而 易 见 ， 这 种 分 布 是 群集 在 平均 值 附 近 的 。 通 常 遇 到 的 正 是 这 种 情况 ， 事 实 上 我 们 能 够 对 这 
种 结果 做 精确 的 表述 ， 而 不 必 知 道 该 分 布 的 更 多 细节 。 
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图 1-3 在 Quicksort 中 比较 的 分 布 (10 <N <50) 
(缩放 并 平移 到 中 心 且 分 离 曲线 ) 
十 面 已 经 讨论 ， 如 果 TIw 是 大 小 为 N 的 输入 组 数 ，IITm 是 使 得 算法 开销 为 的 大 小 为 N 的 输 
入 组 数 ， 则 平均 开销 由 下 式 给 出 
u= > in My 
方差 (variance) 定义 为 
o’ = ye wT, (Ty = Dr Tm Thy -— 


标准 差 (standard deviation) o 是 方差 的 平方 根 。 知 道 平 均值 和 标准 差 通常 就 能 可 靠 地 预报 性 
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能 。 完 成 这 项 工作 的 经 典 解析 工具 是 切 比 雪夫 不 等 式 (Chebyshev inequality): 一 次 观察 将 大 
于 标准 差 到 平均 值 距离 的 c 倍 的 概率 小 于 1/c*。 如 果 标 准 差 明显 小 于 平均 值 ， 那 么 当 N 变 大 时 观 
察 到 的 值 非常 可 能 相当 接近 平均 值 。 在 算法 分 析 中 常常 是 这 种 情形 。 

习题 1.21 在 本 章 较 早 给 出 的 Mergesort 实 现 中 的 比较 次 数 的 标准 差 是 多 少 ? 


由 Quicksort 使 用 的 比较 次 数 的 标准 差 为 J(21- 2r2)/3N ~0.6482776N ( 见 3.12 节 )， 因 此 ， 


比如 参考 表 1-1 并 取 切 比 雪夫 不 等 式 中 c = V10 ， 则 我 们 断言 :存在 多 于 90% 的 机 会 ， 当 N = 
100 000 时 比较 的 次 数 在 2 218 033 的 205 004 (9.2%) 之 内 。 显 然 ， 这 种 精度 对 预报 性 能 是 足 
够 的 。 

随 着 NN 的 增加 ， 相 对 精度 也 在 增加 。 例 如 ， 当 和 增加 时 分 布 变 得 更 集中 在 图 1-3 的 峰值 附近 。 
Kirk, 切 比 雪夫 不 等 式 低估 了 在 这 种 情形 下 的 精度 ， 如 图 1-4 所 示 。 这 个 图 画 出 一 个 柱状 图 ， 
显示 由 Quicksort 作 用 到 10 000 个 不 同 的 随机 文件 时 所 用 到 的 比较 次 数 ， 其 中 每 个 文件 有 1000 
个 元 素 。 图 中 的 阴影 部 分 表示 超过 94% 的 试验 落 入 这 个 实验 的 平均 值 的 一 个 标准 差 之 内 。 
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图 1-4 _ Quicksort 比 较 计 数 的 经 验 柱状 图 
(N = 1000 的 10 000 次 试验 ) 
对 于 总 的 运行 时 间 ， 我 们 可 以 将 各 个 量 的 平均 值 求 和 ( 乘 以 开销 )， 不 过 ， 计 算 总 的 运行 
时 间 的 方差 是 一 项 复杂 的 计算 ， 因 为 总 的 方差 渐 近 地 和 最 大 的 方差 相同 ， 所 以 我 们 不 在 这 里 
进行 繁琐 的 计算 。 对 于 大 的 N， 标 准 差 与 平均 值 相 比 要 小 ， 这 就 解释 了 表 1-1 和 图 1-1 中 所 观察 
到 的 精度 。 算 法 分 析 中 不 发 生 这 种 情况 的 情形 很 少见 。 如 果 我 们 对 于 平均 开销 有 一 个 精确 的 
渐进 估计 ， 并 且 知 道 标 准 差 渐 近 地 更 小 ， 那 么 我 们 通常 认为 算法 是 “被 全 面 分 析 ” 的 。 


1.8 概率 算法 


Quicksort 平 均 性 能 的 分 析 依 赖 于 随机 顺序 的 输入 。 在 许多 实际 场合 下 ， 这 个 假设 不 可 能 
是 严格 合理 的 。 一 般 说 来 ， 这 反映 算法 分 析 中 最 严重 的 挑战 之 一 : 需要 适当 地 将 可 能 出 现在 
实际 中 的 输入 模型 公式 化 。 

幸运 的 是 ， 往 往 存在 克服 这 个 困难 的 方法 : 在 使 用 算法 之 前 先 将 输入 “随机 化 。 对 于 排 
序 算法 ,我 们 只 要 随机 地 排列 输入 文件 然后 就 可 进行 排序 。( 见 第 6 章 中 算法 对 此 的 特定 实现 。) 
如 果 照 此 进行 ， 那 么 像 上 面 所作 的 关于 性 能 的 概率 论述 就 是 完全 合理 的 ， 并 且 能 够 在 实际 当 
中 精确 地 预报 性 能 ， 而 不 管 输入 如 何 排列 。 

通过 进行 随机 选择 (与 任意 的 特定 选择 相反 ) ， 只 要 算法 能 够 从 几 个 行动 中 选取 其 一 ， 则 
付出 较 少 的 工作 常常 也 能 够 得 到 同样 的 结果 。 对 于 Quicksort ， 这 个 原则 就 是 随机 地 选取 元 素 
用 作 分 割 元 ， 而 不 是 每 次 都 使 用 数组 末尾 的 元 素 。 如 果 这 种 方法 仔细 地 实现 (保留 子 文件 中 
的 随机 性 )， 那 么 就 能 够 保证 上 面 的 概率 分 析 是 有 效 的 。( 对 于 小 的 子 文件 还 应 该 使 用 截止 的 
做 法 ， 因 为 它 使 得 生成 的 随机 数 的 个 数 减 少 大 约 M 的 大 小 。) 随机 化 算法 的 其 他 一 些 例子 可 以 





在 [18] 中 找到 。 这 样 的 算法 在 实践 中 是 很 有 意义 的 ， 因 为 它们 利用 随机 性 得 到 了 效率 ， 并 且 以 
高 概率 避免 了 最 坏 情形 的 性 能 。 此 外 ， 还 可 以 作出 关于 性 能 的 精确 的 概率 表述 。 这 进一步 激 
发 了 为 得 到 这 样 的 结果 而 进行 的 高 级 技巧 的 研究 。 

我 们 一 直 在 考虑 的 对 Quicksort 的 分 析 的 例子 或 许 阐释 了 一 套 理想 化 的 方法 : 不 是 所 有 的 
算法 都 能 够 像 这 种 方法 一 样 平稳 地 被 处 理 。 像 上 面 这 样 全 面 的 分 析 需 要 付出 大 量 的 努力 ， 这 
种 努力 应 该 只 留 给 那些 最 重要 的 算法 。 幸 运 的 是 ， 我 们 将 看 到 存在 许多 基本 的 方法 ， 确 实 享 
有 使 分 析 值 得 如 此 深入 进行 的 基本 要 素 : 

， 可 以 指定 现实 的 输入 模型 。 

。 可 以 得 到 性 能 的 数学 描述 。 

。 可 以 解 出 简洁 、 准 确 的 解 。 

。 结 果 可 以 用 来 比较 一 些 变种 ， 可 与 其 他 的 算法 进行 比较 ， 以 及 有 助 于 调整 算法 的 一 些 参 

数 的 值 。 

在 本 书 中 ， 我 们 考虑 大 量 的 这 种 方法 ， 并 着 重 考 虑 那些 使 第 2 点 和 第 3 点 成 立 的 数学 方法 。 

通常 ， 上 面 概述 的 这 套 方法 中 程序 特定 (依赖 于 实现 ) 的 部 分 被 跳 过 ， 其 目的 或 者 是 为 
了 集中 于 算法 设计 ， 此 时 运行 时 间 的 粗略 估计 可 能 已 经 足够 了 ， 或 者 是 为 了 集中 在 数学 分 析 
上 ， 此 时 所 涉及 的 数学 问题 的 公式 化 以 及 求解 方案 是 最 感 兴趣 的 问题 。 这 就 是 那些 涉及 最 重 
要 的 智力 性 挑战 的 领域 ， 应 该 引起 我 们 足够 的 注意 。 

上 面 已 经 提 到 ， 当 前 对 计算 机 一 般 使 用 中 ， 算 法 分 析 的 一 个 重要 挑战 是 将 那些 实际 上 代 
表 输 入 的 模型 以 及 导致 容易 处 理 的 分 析 问 题 的 模型 公式 化 。 在 这 个 问题 上 我 们 不 犹 玉 ， 因 为 
存在 一 大 类 组 合 学 算法 ， 对 于 这 类 算法 这 些 模 型 是 自然 的 。 本 书 中 我 们 稍 详细 地 考虑 这 类 算 
法 的 一 些 例子 以 及 与 其 相关 的 基本 结构 。 我 们 研究 排列 、 树 、 串 、trie 树 、 字 和 映射 ， 因 为 
它们 既是 广泛 研究 的 组 合 学 结构 又 是 广泛 使 用 的 数据 结构 ， 还 因为 “随机 ”结构 既 直 接 又 现 
实 。 

在 第 2 章 - 第 4 章 ， 我 们 将 着 重 讨 论 适 用 于 算法 性 能 研究 的 数学 分 析 方法 。 这 些 材料 在 超 
越 算法 分 析 的 许多 应 用 中 都 是 重要 的 。 但 是 ， 我 们 讨论 的 范围 由 于 为 本 书后 面 的 应 用 做 准备 
而 将 进一步 展开 。 然 后 ， 在 第 5 章 ~ 第 8 章 ， 我 们 将 应 用 这 些 方法 分 析 某 些 基 本 的 组 合 学 算法 ， 
包括 若干 具有 实际 意义 的 问题 。 这 些 算法 有 许多 在 各 种 各 样 的 计算 机 应 用 中 具有 基本 的 重要 
性 ， 因 此 有 必要 对 详细 的 分 析 进 行 相关 的 研究 。 在 某 些 情况 下 ， 有 些 看 似 相 当 简 单 的 算法 可 
能 导致 非常 复杂 的 数学 分 析 ; 而 在 另外 一 些 情况 下 ， 某 些 明 显 复杂 的 算法 可 能 以 直接 简单 的 
方式 就 能 处 理 。 在 这 两 种 情形 下 ， 分 析 都 能 够 揭示 在 实践 中 正在 使 用 的 具有 直接 影响 的 算法 
间 的 重要 区 别 。 

本 书 夺 括 的 基本 方法 当然 适用 于 比 我 们 能 够 在 这 个 导论 性 的 处 理 中 讨论 的 方法 广泛 得 多 
的 一 类 算法 和 结构 。 我 们 在 本 书 中 将 不 涉及 图 论 算 法 、 数 值 算法 或 几何 算法 ， 不 过 许多 这 样 
的 算法 一 直 在 被 深入 地 研究 。 我 们 还 简要 地 提 到 诸如 摊 还 分 析 和 概率 方法 这 样 一 些 方法 ， 它 
们 被 成 功 地 应 用 到 许多 重要 算法 的 分 析 中 。 我 们 希望 ， 掌 握 本 书 中 引 论 性 的 材料 是 为 了 鉴赏 
在 算法 分 析 的 研究 文献 中 的 那些 材料 所 做 的 充足 准备 。 除 较 早 引用 的 Knuth、Sedgewick 以 及 
Aho、Hopcroft 和 Ullman 的 书 之 外 ， 关 于 算法 分 析 和 计算 复杂 性 信息 的 其 他 来 源 为 Cormen、 
Leiserson 和 Rivest 的 书 [5] 以 及 Gonnet 和 Baeza- Yates 的 书 [8]。 

同等 重要 的 是 ， 我 们 讨论 组 合 学 性 质 的 解析 问题 ， 它 使 我 们 开发 一 般 的 方法 ， 这 些 方法 
可 以 帮助 我 们 分 析 那 些 未 来 的 、 迄 今 尚未 发 现 的 算法 。 我 们 使 用 的 方法 产生 于 组 合 数学 和 渐 
进 分 析 的 经 典 领域 ， 我 们 能 够 应 用 来 自 这 些 领域 的 经 典 方法 ， 以 统一 的 方式 处 理 大 量 的 算法 。 


[29 | 





18 ; or 4 


在 姐妹 篇 17] 中 ， 我 们 考虑 组 合 学 架构 ， 这 种 架构 能 够 直接 引出 算法 性 能 的 解析 描述 ， 并 从 这 
些 描述 中 得 出 渐进 估计 的 方法 。 

在 本 书 中 , 我们 讨论 重要 的 基本 概念 ， 而 同时 又 为 [7] 更 先进 的 处 理 商定 了 基础 。Graham、 
Knuth 和 Patashnik[9] 是 涉及 我 们 用 到 的 更 多 数学 材料 的 良好 来 源 ; 像 Comtet[4] (组 合 学 ) 和 
Herici[11] (分 析 ) 这 样 的 标准 参考 文献 也 有 相关 的 材料 。 一 般 说 来 ， 我 们 在 本 书 中 使 用 初 
等 的 组 合 学 和 实 分 析 ， 而 [7] 则 是 从 组 合 学 的 观点 涉及 更 彻底 的 处 理 ， 并 依赖 于 对 渐 近 性 的 
复 分 析 。 

我 们 的 起 点 是 研究 那些 广泛 使 用 中 的 基本 算法 的 特征 ， 但 是 我 们 在 本 书 中 的 基本 目的 是 
对 所 遇 到 的 组 合 学 和 解析 方法 提供 连贯 的 处 理 。 在 适当 的 时 候 ， 我 们 详细 地 考虑 那些 自然 发 
生 但 可 能 (就 当前 所 知 ) 并 不 适用 的 任何 算法 的 数学 问题 。 采 取 这 样 一 种 处 理 方法 ， 我 们 必 
然 涉及 范围 和 多 样 性 的 问题 。 此 外 ， 在 全 书 的 例子 中 可 以 看 到 ， 我 们 求解 的 问题 是 与 许多 重 
要 应 用 直接 相关 的 。 
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第 2 章 递归 关系 


我 们 考虑 对 其 进行 分 析 的 算法 通常 都 可 以 表示 成 递归 或 迭代 的 过 程 ， 这 意味 着 ， 一 般 我 
们 能 够 把 求解 特定 问题 的 开销 用 求解 一 些 更 小 的 问题 的 开销 来 表示 。 正 如 在 上 一 章 Quicksort 
和 Mergesort 分 析 中 所 看 到 的 ， 对 于 这 种 情况 ， 数 学 上 最 基本 的 处 理 是 使 用 递 推 关 系 。 它 代表 
着 一 种 从 程序 的 递归 表示 到 描述 其 特性 的 函数 的 递归 表示 间 直 接 映射 的 实现 方式 。 虽 然 同 样 
的 递归 分 解 仍然 是 问题 的 核心 ， 但 是 还 是 有 一 些 其 他 的 方法 也 能 够 做 到 这 一 点 。 在 第 3 章 我 们 
将 看 到 ， 这 也 是 算法 分 析 中 生成 国 数 方法 的 应 用 基础 。 

由 于 递归 本 身 携带 了 大 量 的 信息 ， 因 此 描述 算法 性 能 的 递 推 关系 的 获得 则 是 分 析 中 向 前 
迈 出 的 重大 一 步 。 算 法 涉及 的 输入 模型 的 特定 性 质 都 被 封装 在 相对 简单 的 数学 表示 之 中 。 许 
多 算法 可 能 不 服从 这 样 一 种 简单 的 描述 ， 幸 运 的 是 ,许多 最 重要 的 算法 都 可 以 由 递 推 公式 相 
当 简 单 地 表示 出 来 ， 而 它们 的 分 析 则 导致 递归 ， 或 者 描述 平均 情形 ， 或 者 确定 最 坏 情 形 的 性 
能 的 界 。 这 一 点 在 第 1 章 以 及 在 第 5 章 ~ 第 8 章 的 许多 例子 中 都 做 了 解释 。 在 本 章 ， 我 们 着 重 讨 
论 各 种 递归 的 数学 性 质 而 不 考虑 它们 的 起 因 和 来 源 。 我 们 将 遇 到 许多 类 型 的 递归 ， 他 们 出 现 
在 本 章 研 究 一 些 特定 算法 的 环境 中 ， 而 且 我 们 还 要 再 涉及 第 1 章 讨 论 过 的 一 些 递 归 ， 不 过 现在 
关心 的 是 递归 本 身 。 

首先 ， 我 们 考查 递归 的 某 些 基本 性 质 以 及 将 它们 分 类 的 方法 。 然 后 ， 考 查 “ 一 阶 ” 递 归 
的 准确 解 ， 这 里 ，n 的 函数 被 表示 成 4 - 1 的 函数 。 我 们 还 要 讨论 高 阶 线性 常 系数 递归 的 准确 
解 。 然 后 ， 查 看 其 他 各 种 类 型 的 递归 并 讨论 求解 某 些 非 线性 递归 以 及 非常 数 系 数 递归 的 近似 
解 的 方法 。 接 着 ， 考 查 在 算法 分 析 中 具有 特殊 重要 性 的 一 类 递归 的 解 :“ 分 治 ” 类 的 递归 。 它 
包括 Mergesort 递 归 的 推导 和 准确 解 的 获得 ， 涉 及 整数 的 二 进 制 表示 。 最 后 ， 通 过 考查 适用 于 
一 大 类 分 治 算法 的 分 析 的 一 般 结果 来 结束 本 章 的 讨论 。 

迄今 为 止 我 们 考虑 过 的 所 有 递归 都 有 准确 解 。 这 样 的 递归 在 算法 分 析 中 常常 出 现 ， 特 别 
是 使 用 递归 对 离散 量 进行 精确 计数 的 时 候 。 但 是 ， 准 确 答案 可 能 要 涉及 一 些 不 相关 的 细节 : 
例如 ， 与 近似 解 273 相 比 ， 使 用 像 (2” 一 (~-1)”/3 这 样 的 准确 解 来 工作 大 概 就 不 值得 这 么 费事 
了 。 在 这 种 情况 下 ，(~1)" 项 的 作用 是 使 得 答案 为 整数 ， 与 2* 相 比 是 可 以 忽略 的 ; 另 一 方面 ， 
在 像 准 确 答案 2"(1 + (-1)") 中 的 项 CD 是 不 能 忽略 的 。 有 必要 避免 在 用 精度 换取 简单 时 过 
分 粗心 ， 以 及 用 简单 换取 精度 时 过 分 热心 的 毛病 。 我 们 有 兴趣 于 得 到 既 简单 又 精确 的 近似 表 
达 式 (即使 准确 解 是 可 以 得 到 的 )。 此 外 ， 我 们 常常 遇 到 这 样 的 递归 ， 它 的 准确 解 是 得 不 到 
的 ， 但 是 我 们 可 以 估计 解 的 增长 率 ， 并 且 在 许多 的 情况 下 得 到 精确 的 渐 近 估计 。 

递 推 关 系 通常 也 叫做 差分 方程 (difference equations ) ， 因 为 它们 可 以 表示 成 离散 的 差分 
算 子 V 记 = 万 - fh- 1。 它们 是 常 微分 方程 的 离散 模拟 。 求 解 微分 方程 的 技巧 在 这 里 也 有 相应 的 
方法 ， 因 为 类 似 的 技巧 常常 能 够 用 来 求解 相似 的 递归 。 我 们 在 下 一 章 将 会 看 到 ， 在 某 些 情况 
下 存在 明显 的 对 应 ， 这 种 对 应 使 得 我 们 能 够 从 微分 方程 的 解 得 到 递归 的 解 。 

有 一 大 批文 献 讨论 递归 的 性 质 ， 因 为 它们 也 直接 产生 于 许多 应 用 数学 领域 。 例 如 ， 像 直接 
导致 递归 的 牛顿 方法 这 样 的 数值 迭代 算法 ， 可 在 像 Bender 和 Orszag[3] 的 书 中 找到 详细 的 描述 。 

本 章 的 目的 是 概括 论述 通常 产生 于 算法 分 析 中 的 递归 类 型 和 某 些 基 本 的 求解 方法 。 我 们 
可 以 使 用 生成 函数 (generating functions) 以 严格 、 系 统 的 方式 处 理 许多 这 样 的 递 推 关 系 ， 其 
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中 生成 函数 将 在 下 一 章 详细 讨论 。 我 们 还 将 在 第 4 章 比较 详细 地 考虑 获取 渐进 逼近 的 一 些 工 具 。 
在 第 5 章 到 第 8 章 我 们 将 遇 到 递归 的 许多 不 同 的 例子 ， 它 们 描述 了 基本 算法 的 性 质 。 

一 且 开 始 详细 讨论 先进 的 工具 ， 我 们 就 会 看 到 ， 递 归 在 算法 分 析 中 常常 不 是 要 使 用 的 最 
自然 的 数学 工具 。 递 归 可 能 会 使 分 析 复 杂 化 ， 而 这 是 可 以 通过 在 更 高 层次 上 的 工作 来 避免 的 ， 
即使 用 符号 的 方法 得 到 生成 函数 间 的 关系 ， 然 后 再 对 生成 函数 进行 直接 的 分 析 。 这 种 想法 将 
在 后 面 各 章 引 入 ， 并 在 [12] 中 详细 处 理 。 在 许多 情况 下 ， 实 际 上 通 向 最 终 解决 的 最 简单 和 最 直 
接 的 途径 是 避免 递归 。 指 出 这 一 点 并 不 是 阻挠 对 递归 的 研究 ， 它 的 确 对 于 许多 的 应 用 来 说 是 
相当 富有 成 效 的 方法 ， 不 过 我 们 要 使 读者 确信 ， 先 进 的 工具 可 能 对 那些 导致 过 分 复杂 的 递归 
问题 提供 简单 的 解法 。 

简 而 言 之 ， 递 归 直 接 产生 于 算法 分 析 的 自然 处 理 过 程 之 中 ， 并 且 对 于 许多 重要 的 问题 能 
够 提供 容易 的 解法 。 由 于 我 们 后 面 的 重点 在 于 生成 函数 技术 ， 因 此 这 里 只 对 在 求解 递归 的 文 
献 中 已 经 得 到 的 方法 进行 简要 的 介绍 。 关 于 求解 递归 的 更 多 信息 可 以 在 包括 [3]、[4]、[6]、 
[141、[151、[16]、[21 和 [221 等 标准 的 参考 文献 中 找到 。 


2.1 基本 性 质 
在 第 1 章 分 析 Quicksort 和 Mergesort 时 我 们 遇 到 下 列 3 个 递归 : 
1 
Cyn (I+) +2 (N>1, C,=2) (2-1) 
Cu = CatCwatN (N >1, C, =0) (2-2) 
1 
CNH D Oa + Crs) (N>0, C, =0) (2-3) 


每 个 方程 都 表示 一 些 特 定 的 问题 。 通 过 将 两 边 乘 以 适当 的 因子 我 们 求解 式 (2-1); BRK (2-2) 
的 近似 解 是 通过 求解 N = 2" 的 特殊 情况 ， 然 后 由 归纳 法 证 明 对 于 一 般 N 的 解 来 进行 的 ; 至 于 式 
(2-3)， 我 们 是 通过 从 它 对 N ~ 1 情形 下 的 同一 方程 减 去 它 而 将 式 (2-3) 变换 成 式 (2-1) 的 。 
这 种 特别 的 技巧 或 许 就 是 求解 递归 常常 需要 的 “智囊 ”的 代表 。 不 过 ， 刚 刚 提 到 的 这 种 
不 多 的 “智囊 ”技巧 不 适用 于 通常 发 生 的 许多 递归 问题 ， 甚 至 包括 著名 的 线性 递归 
F,=F,.,+F,-> (n>1,F=0, F,=1) 
TENTEI (Fibonacci) 数列 {0, 1, 1, 2, 3, 5, 8, 13, 21, 34…'}。 斐 波 那 契 数 已 经 过 透 
彻 的 研究 并 实际 上 确实 发 生 在 许多 重要 算法 的 设计 和 分 析 之 中 。 本 章 我 们 考虑 求解 它们 以 及 
其 他 递归 的 若干 方法 ， 而 且 在 下 一 章 和 其 后 各 章 我 们 还 将 考虑 其 他 适用 的 系统 性 方法 。 





表 2-1 递归 的 分 类 
递归 类 型 典 型 例 

1 阶 

线性 a, = na, -l 

非 线性 a, =1/(1+a,..) 
2 阶 

线性 a, =a, + 24, 2 

非 线 性 a, = n182 + Va 


ERR a, = hd +(n- Na,_, +1 
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(#8) 
递归 类 型 典型 例 
Br a, = flaps pars pa) 
n 阶 a, =N+a, 十 CQ "+a 
分 治 情形 We i E 





递归 的 分 类 是 通过 其 各 项 组 合 的 方式 、 所 涉及 系数 的 类 型 ， 以 及 所 用 到 前 面 的 项 的 项 数 
和 性 质 来 进行 的 。 表 2-1 列 出 我 们 将 要 考虑 的 递归 以 及 代表 性 的 例子 。 

值 的 计算 。 正 常情 况 下 ， 递 归 提 供 一 种 有 效 的 方法 计算 所 考 虚 的 量 的 值 。 特 别 是 ， 求 解 
任意 的 递归 的 最 初 一 步 是 用 它 计算 一 些小 的 值 来 获得 递归 如 何 增长 的 一 种 感觉 。 这 可 以 通过 
手 算 一 些小 的 值 来 完成 ， 或 者 不 难 编制 程序 来 计算 一 些 更 大 的 值 来 完成 。 例 如 ， 对 应 递归 式 
(2-3)， 程 序 2.1 将 计算 对 于 所 有 小 于 等 于 Nmax 的 N 的 Quicksort 的 平均 比较 次 数 的 准确 值 〈 见 
表 1-1)。 这 个 程序 使 用 一 个 大 小 为 Nmax 的 数组 存储 前 面 算出 的 值 。 应 该 避免 使 用 直接 基于 递 
归 的 纯 递 归程 序 : 通过 计算 所 有 的 值 Cv 1. Cw - ; , …, C1 来 计算 Cn 将 会 导致 特别 低 的 低 效 ， 因 
为 有 许多 的 值 将 被 豪 无 必要 地 重复 计算 。 

如 果 有 些 情形 像 程 序 1.2 那 样 已 经 足够 ， 那 么 就 要 避免 太 深 地 追究 数学 。 我 们 认为 简洁 的 
数学 解 更 是 我 们 所 期 望 的 一 一 的 确 ， 我 们 把 分 析 本 身 看 作 是 使 得 程序 2.1 更 为 有 效 的 一 道 工 
PEL 总 之 ,这样 的 “ 解 ” 可 以 用 来 证 实 我 们 的 分 析 。 另 一 个 极端 的 做 法 是 通过 对 所 有 可 能 的 
输入 运行 一 个 程序 来 计算 该 程序 的 平均 运行 时 间 的 蛮 干 (通常 是 不 实际 的 ) 方法 。 

习题 2.1 写 出 计算 非 波 那 右 递归 的 说 归程 序 和 非 北 归程 序 ， 并 用 每 个 程序 来 计算 Fao。 解释 
这 种 情形 下 每 个 程序 的 性 能 。 

习题 2.2 计算 CNnw 的 程序 2.1 使 用 了 多 少 次 算术 运算 ? 

程序 2.1 计算 值 (Quicksort 递 归 ) 





CIO] := 0; 
for N := 1 to Nmax do 
begin 
CIN] := N+1; 
for i := 1 to N do CIN] := CIN]+(C[i-1]+C{N-i])/N; 
end; 


习题 2.3 ”编写 一 个 直接 使 用 递归 式 (2-1) 的 程序 计算 其 值 。 这 个 程序 所 使 用 的 算术 运算 
次 数 比 程序 2.! 〈 见 前 面 的 习题 ) 如 何 ? 
习题 2.4 ”个 计 使 用 递归 式 (2-2) 和 式 (2-3) 计算 其 值 的 递归 程序 和 非 递 归程 序 需 要 多 
少 次 运算 。 
习题 2.5 编写 一 个 程序 比较 Quicksort、 它 的 三 数 中 值 变 体 、 基 数 交 换 排序 ， 从 第 1 章 给 出 
的 那些 说 归 求 值 。 对 于 Quicksort， 检 验 已 知 解 的 值 ;对 于 其 他 算法 ， 作 出 解 的 性 质 的 猜测 。 
缩放 和 平移 。 递 归 的 一 个 基本 性 质 是 依赖 于 初始 值 : 在 线性 递归 
a, =f (a,-,) (n>0, ao= 1) 
中 将 初始 条 件 ao = 1 改变 成 ao = 2 将 会 改变 a, 对 所 有 n 的 值 ( 若 f(0) = 0, 则 a, 的 值 都 将 增加 一 倍 )。 
“初始 值 ”可 以 出 现在 任何 地 方 : 若 有 
b,=f(b,- 1) (n>1, b,= 1) 
则 必然 有 2 = a, - ,。 改 变 初始 值 叫 做 缩放 (scaling) 递归 ; 移动 初始 值 叫做 平移 (shifting ) 
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递归 。 初 始 值 最 常见 的 是 从 问题 直接 得 出 ， 不 过 我 们 常常 使 用 缩放 和 平移 简化 通 向 解 的 途径 。 
我 们 不 打算 叙述 递归 的 解 的 最 一 般 形 式 ， 而 是 求解 一 种 自然 形式 ， 并 假设 在 适当 的 时 候 解 可 
以 缩放 或 平移 。 
线性 性 。 具 有 多 于 一 个 初始 值 的 线性 递归 可 以 通过 独立 地 改变 初始 值 并 将 解 组 合 而 得 到 
“缩放 ”。 如 果 f (x, yy) 是 一 个 线性 函数 且 f (0,0) =0， 那 么 
Qn=f(an-10n-2) (n>1) 
的 解 〈 初 始 值 ao 和 a 的 销 数 ) 为 ao 乘 以 
us=flu wy) (n>1Hu=1, u=0) 
的 解 加 上 al 乘 以 
= vv) >1, vy =O, vi=1) 
的 解 。 条 件 f(0, 0) = 0 使 得 递归 成 为 齐 次 递归 : 如 果 在 f 中 有 一 个 常数 项 ， 那 么 它 以 及 初始 值 
都 必须 要 考虑 。 这 以 一 种 直接 的 方式 将 任意 界 齐 次 线性 递归 〈 对 于 任意 一 组 初始 值 ) 的 一 般 
解 作为 :个 特定 的 解 的 线性 组 合 而 加 以 推广 。 我 们 在 第 1 章 用 到 过 这 个 过 程 求解 描述 由 
Quicksort 所 采取 的 交换 次 数 的 递归 ， 结 果 表 示 成 描述 比较 次 数 和 阶段 数 的 递归 的 形式 。 
习题 2.6 KRH 
. a =An-1+Q,-2 (n>1, @=p,a,=q) 
用 斐 波 那 契 数 表示 你 的 答案 。 
习题 2.7 求解 非 齐 次 递归 
ao=a +a, +r (n>1 a=p,a,= 4) 
用 斐 波 那 契 数 表示 你 的 答案 。 
习题 2.8 对 于 线性 函数 /， 将 递归 
a = va-a) n>1 


的 解 表示 成 ao， a, f (0, 0) fra, =f (a, - ua n-2 = fo, 0) 对 于 ai 三 1, Co = 0 和 ao = 1, 4&4 = 0 的 解 。 
2.2 一 阶 递归 
或 许 最 简单 形式 的 递归 可 以 直接 化 成 一 个 乘积 。 递 归 


an = XpQn 1 (n>0 ，ao= 1) 


a, = | | 
1k <n 


FH, Mx, = n 则 a = n!, 而 如 果 z = 2 则 a, = 2 等 等 。 

这 种 变换 是 迭代 (iteration) 的 一 个 简单 例子 : 将 递归 应 用 到 它 自 己 直至 只 剩 下 常数 和 初 
始 值 为 止 ， 然 后 再 简化 。 选 代 也 直接 适用 于 下 一 个 最 简单 类 型 的 递归 ， 通 常 遇 到 的 要 多 得 多 ， 
它 是 立即 简化 为 和 : 


等 价 于 


a=a-i+ (n>0, ao=0) 


n 


等 价 于 
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4, = Yk 
于 是 ， 如 果 = 1 那么 a = n， 而 如 果 y =n- Mla, = n(n - 1)/2 等 等 。 
表 2-2 给 出 一 些 经 常 遇 到 的 离散 和 。 更 全 面 的 表 可 以 在 像 Graham、Knuth 和 Patashnik[14] 
或 Riordan[23] 这 样 的 标准 文献 中 找到 。 
习题 2.9 求解 递归 


n 
a, =——4,_ n>0, a, =1 
n+2 ™ ( ond) 


习题 2.10 求解 递归 


a,=a,-,+(-1)'n (n>0, ao= 1) 


R2-2 初等 离散 和 
几何 级 数 了 x 
等 差 级 数 D - man). (3) 
MARR DAURA 
二 项 式 定理 之 (7) xy = (x+y) 
调和 级 数 Dra 
调和 级 数 的 和 Bn 
cannes ME 





如 果 我 们 有 一 个 不 是 这 么 简单 的 递归 ， 那 么 我 们 常常 可 以 通过 将 递归 的 两 边 同 乘 一 个 适当 
的 因子 而 把 它 简 化 。 在 第 1 章 我 们 已 经 见 过 一 些 这 样 的 例子 。 例 如 将 式 (1-1) 的 两 边 除 以 W+ 1 
来 求解 式 (1-1)， 得 到 一 个 CW(N + 1 形式 的 简单 递归 ， 经 过 夺 代 可 以 直接 变换 成 一 个 求 和 式 。 

习题 2.11 求解 递归 

na, =(n- 2)a,-,+2 (n>1, a,=1) 
(提示 : Mn- 1 乘 以 两 边 ) 。 
习题 2.12 求解 递归 
a,=2a,-,;+1 n>1Ha,=1 

(提示 : 用 2" 除 两 边 ) 。 

用 这 种 方法 求解 递 推 关系 (差分 方程 ) 是 对 利用 积分 因子 相 乘 然后 再 积分 来 求解 微分 方 
程 的 一 种 模拟 。 用 于 递 推 关系 的 因子 有 时 候 叫 做 求 和 因子 (summation factor)。 适 当选 择 求 和 
因子 可 以 使 求解 许多 实践 中 产生 的 递归 成 为 可 能 。 例 如 ， 描 述 用 于 三 数 中 值 Quicksort 平 均 比 
较 次 数 的 递归 的 准确 解 就 是 由 Knuth 利 用 这 样 的 技巧 [18] 得 到 的 (也 见 [24] )。 


定理 2.1 (一 阶 线性 递归 ) 递归 


an = Xdn-1 + yn (n>0 ,ao = 0) 





E EE A 


的 显 式 解 为 
a, = Yn + D VAn AX 


le jen 


证 明 : 用 xm - RATER, RNA 


= > Jj 
An = Xn Xn Xl 
1< TE n XX A 


一 Yn + Dinka n 
LS jen 





[43] 同样 的 结果 还 可 以 通过 用 xm 1x, ,2… (假设 它 是 收敛 的 ) 乘 以 两 边 并 迭代 而 得 到 。 a 
例如 ， 定 理 2.1 的 证 明说 的 是 ， 我 们 应 该 用 
N+1 N N-1 32 


PE =N+1 
N N-1N-2 21 





除 两 边 来 求解 递归 


1 
Cy = (1+ \Cy-1 #2 N>1HC,=2 


这 正 是 我 们 在 1.5 节 所 做 的 。 再 有 ， 解 
2(N + IXH,- D) 
也 可 以 直接 从 定理 叙述 中 所 给 出 的 解 的 显 式 形 式 得 到 。 
定理 2.1 是 将 具有 常 或 变 系数 一 阶 线性 递归 变换 到 和 式 的 变换 的 完全 特征 化 ， 求 解 递归 的 
问题 化 成 和 式 求 值 的 问题 。 
习题 2.13 求解 递归 


a, =—~a,,+1 (n>0, a=) 
n+l 


习题 2.14 以 x、y 和 初始 值 a, 的 形式 写 出 


Ay = Xpan- t Yn (n>t) 


的 解 。 
习题 2.15 求解 递归 
na, = (n+ 1)a,_,+2n (n>0, a) =0) 
习题 2.16 求解 递归 
na, = (n — 4)a,_, + 12nH, (n>4， 对 n< 4 有 a, = 0) 


习题 2.17 [Yao] (“2-3 树 的 边缘 分 析 ") 求解 递归 


2Ay, nf, 2A 
Ay = Aya- wat paf “At (N >0,A, =0) 


这 个 递归 描述 了 下 面 的 随机 过 程 : 将 一 组 N 个 元 素 分 成 “2- 结 点 ”和 “3- 结 点 "。 在 每 一 
步 ， 每 个 2- 结 点 以 概率 2/N 转 变 成 一 个 3- 结 点 ， 而 每 个 3- 结 点 以 概率 3/N 转 变 成 两 个 2- 结 点 。 
经 过 N 步 之 后 ，2- 结 点 的 平均 个 数 是 多 少 ? 
2.3 非 线性 一 阶 递归 


当 递 归 由 关于 a, 和 a, - ,的 非 线 性 函数 组 成 的 时 候 ， 会 出 现 很 多 的 情况 ， 我 们 不 能 期 望 像 定 
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理 2.1 那 样 有 一 个 封 闲 形 式 的 解 。 本 节 考 虑 一 些 确实 能 够 得 到 解 的 有 趣 的 情形 。 
简单 收 和 化。 计算 初始 的 一 些 值 的 一 个 令 人 信服 的 理由 是 ， 许 多 表面 上 复杂 的 递归 实际 上 
就 收敛 到 一 个 常数 。 例 如 ， 考 虑 方程 
a, = 1⁄1 +a,-1) (n>0, ao= 1) 


这 是 所 谓 的 连 分 式 方程 ， 将 在 2.5 节 讨论 。 通 过 计算 一 些 初始 的 值 ， 我 们 可 以 猜测 递归 收敛 到 
一 个 常数 : 


= 





oon nu F&F WN 


a, 


0.500 000 000 000 
0.666 666 666 667 
0.600 000 000 000 
0.625 000 000 000 
0.615 384 615 385 
0.619 047 619 048 
0.617 647 058 824 
0.618 181 818 182 
0.617 977 528 090 


la, - (V5 -1)/21 


0.118 033 988 750 
0.048 632 677 917 
0.018 033 988 750 
0.006 966 O11 250 
0.002 649 373 365 
0.001 013 630 298 
0.000 386 929 926 
0.000 147 829 432 
0.000 056 460 660 





每 次 迭代 增加 常数 位 ( 约 半 位 ) 的 有 效 数字 的 位 数 ， 这 叫做 简单 收 仇 。 如 果 假 设 递归 收敛 到 
一 个 常数 ， 那 么 我 们 知道 ， 这 个 常数 必然 满足 = 1/(1 +a), 或 1 - a - of = 0， 它 导致 解 
a = (45 -1)/2 = 0.618034 + 


习题 2.18 ”定义 b, =a,- a, 其 中 as 和 a 定义 如 上 ， 求 出 当 n 很 大 时 ,的 近似 公式 。 

习题 2.19 iE Ha, = cos (a,- KAHH Elim, e an 到 5 位 十 进 制 小 数位 。 

二 次 收 化 和 和 牛顿 方法 。 这 个 计算 函数 根 的 著名 迭代 方法 可 以 看 作 是 计算 一 阶 递归 的 近似 
解 的 过 程 ( 比 如 ， 可 见 [3])。 例 如 ， 计 算 正 数 平方 根 的 牛 量 方法 是 对 下 面 的 公式 进行 交代 





.Bet B | (n>0, a, =1) 


在 该 递归 中 变换 变量 ,我 们 可 以 看 到 这 个 方法 为 什么 这 么 有 效 。 令 b, =a ~ 9， 通 过 简单 的 代 
数 整理 发 现 





b= 


1b+B-o’ 
”2 b +a 


n-i 


FE, #a= VB ， 则 大 致 有 b,x brni PIATRA AR, kR E TAFA: 


n 


a, 





a, 2 


1 1.500 000 000 000 0.085 786 437 627 
2 1.416 666 666 667 0.002 453 104 294 
3 1.414 215 686 275 0.000 002 123 901 
4 1.414 213 562 375 0.000 000 000 002 
5 1.414 213 562 373 0.000 000 000 000 


每 一 次 迭代 大 约 将 现 有 的 有 效 数字 位 数 扩 大 1 人 入， 这 就 是 二 次 收敛 的 情形 。 
习题 2.20 讨论 当 试图 使 用 牛顿 方法 计算 V-1 时 会 发 生 什么 情况 : 





B > o_a 





1 1 
a, (4 一 | (n>0, a #0) 


BRK. BBB 
A, = d,_ (1 — a,- 1) (n>0, ay = 1/2) 
我 们 将 在 第 5 章 看 到 类 似 的 递归 在 “随机 二 又 树 ” 高 度 的 分 析 中 的 作用 。 由 于 递归 中 的 项 是 递 
减 的 并 且 是 正 的 ， 因 此 不 难看 出 lim n.a = 0。 为 找 出 收 钙 速度， 自然 要 考虑 1/a,。 代 入 得 到 





1 
=——(l+a,,+a7,+--) 
Gy 


>a 
an- 
反复 套用 该 不 等 式 则 给 出 1/a,> 7 或 a, < 1/mn。 因 此 我 们 发 现 a, = 0O(1/n)。 
习题 2.21 证 明 a, = O (1/n)。 计 算 开 始 的 几 项 并 猜测 用 c/n 近似 a 的 常数 c， 然 后 严格 证 明 
na, 趋 向 于 一 个 常数 。 
习题 2.22 [De Bmijn] 证 明 递归 
a,=sin(a,.,) (n>0, a= 1) 
的 解 满足 lim, o a, = 0 及 a, = O(1/ Vn )。( 提 示 : 考虑 变量 代 换 b, = 1/a,。) 
刚刚 考虑 过 的 这 3 种 情形 是 形式 
| a, =f (a, - 1) 
的 特殊 情形 ， 其 中 /为 连续 函数 。 如 果 a, 收 敛 到 极限 w， 那 么 c 必 然 是 该 函数 的 一 个 不 动 点 ， 
且 a = fa 。 上 面 的 3 种 情形 是 下 面 一 般 情 形 的 代表 : 如 果 0<1f'(o)1<1， 则 收敛 是 简单 的 ; 
如 果 f(a) =0， 则 收敛 是 二 次 的 ; 而 车 1r(al = 1， 则 收敛 是 “ 慢 ” 的 。 
习题 2.23 % AP(a) >1 时 会 发 生 什么 情况 ? 
习题 2.24 和 叙述 对 应 上 述 三 种 情形 局 部 收敛 性 ( 即 当 ao 足 够 接近 Qa 时) 的 充分 性 准则 ， 并 
AS (OAS (DRA h KIRE. 


2.4 高 阶 递归 


下 面 我 们 考虑 关于 w, 的 方程 右边 是 ca。 2. a, - ;等 以 及 a _ ;的 线性 组 合 而 系数 则 是 常数 的 情 

形 的 递归 。 看 一 个 简单 例子 ， 考 虑 递归 
a, = 3a -1 — 2a,-2 (n>1, ao=0, a,=1) 

首先 观察 a, - a,-, = 2(a,_1 - Q,- 2), 这 是 关于 量 a, - a- 的 初等 递归 ， 容 易 求解 。 迭 代 该 过 
程 得 到 a, - a,.，= 2"- 1!， 将 这 个 初等 递归 重复 并 求 和 得 到 解 o, = 2” ~ 1。 我 们 还 可 以 通过 观 
Za, - 2a,_, = 4,_, - 2a。,; 来 求解 这 个 递归 。 这 些 方法 恰好 对 应 分 解 二 次 三 项 式 1 - 3x + 22° 
=(1- 2x)\(1- x). 

类 似 地 ， 我 们 可 以 发 现 通过 求解 关于 a, - 3a, - :或 a, - 2a, . ! 的 初等 递归 而 得 到 


a, =5a -1 一 6a-: (n>1, a)=0, a,=1) 
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的 解 为 a, = 3" 一 2". 
习题 2.25 给 出 以 a, = 4 一 3"+ VAR HHH, 
这 些 例 子 阐 明了 解 的 一 般 形式 ， 而 且 这 种 类 型 的 递归 可 以 显 式 解 出 。 
定理 2.2 ( 常 系数 线性 递归 ) 递归 
A, = XGn_ 1+ Xap 2 HFK An net 
的 所 有 解 可 以 表示 成 形 如 mB" 的 项 的 线性 组 合 ( 组 会 系数 依赖 于 初始 条 件 40, a1,…， 
a, - 1)» 其 中 B 是 特征 多 项 式 
gz) = z- xg! x - x, 
的 根 ， 而 若 有 的 重 数 为 U， 则 /满足 0 < j <v. 
证 明 : 我 们 自然 要 找 形 如 a, = 序 形 式 的 解 。 代 入 任意 这 样 的 解 必 然 满足 
B= x Boh + BP t+ xB! (n> t) 
或 等 价 地 ， 
bp" 4qa(05)=0。 
即 对 于 特征 多 项 式 的 任意 的 根 6p，B "是 递归 的 解 。 
其 次 ， 设 pf 为 q(z) 的 二 重 根 。 我 们 想 要 证 明 nP" 以 及 PP 都 是 递归 的 解 。 再 次 代入 ， 必 然 有 
np" =x,(n — DE +x- DP 724-4 Xn — OB! (n>t) 
或 等 价 地 ， 
Pp" '‘((n~ A q (B) + pa) =0 
正如 所 料 这 是 正确 的 ， 因 为 当 B 是 二 重 根 时 g(B) = 4g(B) = 0， 对 于 更 高 的 重 数 可 以 用 类 似 的 方 
式 处 理 。 
特征 多 项 式 有 多 少 个 根 (包括 重 根 )， 这 个 过 程 就 给 出 递归 的 多 少 个 解 。 它 和 递归 的 阶 数 : 
相同 。 不 仅 如 此 ， 这 些 解 还 是 线性 无 关 的 (它们 在 “有 不 同 的 增长 阶 )。 由 于 ! 阶 递归 的 解 形成 
一 个 ! 维 向 量 空间 ， 因 此 递归 的 每 一 个 解 必 然 能 够 表示 成 形 如 mB" 这 种 特 解 的 线性 组 合 。 E 
求 线性 组 合 的 系数 。 任 意 线性 递归 的 准确 解 都 可 以 从 定理 2.2 通 过 使 用 初始 值 co, a1,…, a- ， 
建立 一 个 方程 组 ， 并 解 出 含有 解 的 项 的 线性 组 合 中 的 常数 系数 而 得 到 。 例 如 ， 考 虑 递归 
a, =Sa 1 一 6a,_ ， n>2 Ha, = 0 和 al= 1 
特征 方程 为 2 - 52+ 6 =(z- 3-2), TÈ 
an = C3" + €,2” 
将 n = OFfin = 1 代入 到 公式 中 则 有 
ao =0 = co +C; 
a= 1 = 3c + 2c, 
这 个 方程 组 的 解 为 cc = 1 和 cl = 1， 因此 a, = 3" — 2”. 
退化 情形 。 我 们 已 经 给 出 了 一 种 方法 求解 任意 线性 递归 的 准确 解 ， 求 解 过 程 使 得 通过 初 
始 条 件 确定 全 部 解 的 方法 明白 清晰 。 当 系数 为 0 与 /或 某 些 根 有 相同 的 模 时 ， 结 果 虽 然 容易 理 
解 ， 但 多 少 有 些 违反 直觉 。 例 如 ， 考 虑 递归 
a, = 24,~1 — An-2 (n>2, a = lla = 2) 





FRED EET- 2z+1=(z- 1? (〈 根 为 1， 重 数 是 2) ， 因 此 解 为 

a, = Col" + cnt” 
应 用 初始 条 件 

ao=1=co 

a=2=c+tc] 
得 到 co = cy = 1， 因 此 a, = n+ 1。 但 是 如 果 初 始 条 件 是 ao = al = 1， 那 么 解 就 会 是 a = 1， 即 为 
常数 而 不 是 线性 增长 。 下 面 的 例子 更 具有 戏剧 性 ， 考 虑 递归 

dn=2an_ 1 一 0 +204，3 (n>3) 
此 处 的 解 为 
. a, = Col” + ci(—1)" + c22” 
而 初始 条 件 的 各 种 选择 可 使 得 解 的 增长 率 是 常数 、 指 数 或 符号 变动 。 这 个 例子 指出 ， 当 处 理 
递归 时 注意 细节 (初始 条 件 ) 是 相当 重要 的 。 
斐 波 那 契 数 。 我 们 已 经 提 到 过 熟悉 的 序列 {0, 1, 1, 2, 3, 5, 8, 13, 21, 34, …}， 它 由 原始 的 
二 阶 递归 
下 ,= 下 -+ 下 > (n>1, Fo=0, F=) 

定义 。 由 于 忆 一 4- 1 的 根 是 p= (1 + V5)/2 = 1.61803… 和 $=(1 一 V5)/2 = -0.61803…， 因 此 
根据 定理 2.2， 解 为 

Fy = Co Q" +of 
其 中 co 和 c; 为 常数 。 应 用 初始 条 件 

Fo=0=co+cl 

F,=1 =cop+cif 
得 到 解 为 


由 于 按照 绝对 值 $ 比 1 大 而 $ 小 于 1， 因 此 在 上 述 Fw 的 表达 式 中 的 项 仇 可 以 忽略 ， 而 事实 上 Fn 总 
是 最 接近 4w V5 的 整数 。 随 着 N 的 增 大 ， 比 率 Fy , 1/Fi 趋 向 于 p， 它 是 在 数学 、 艺 术 、 建 筑 和 自 
然 中 著名 的 黄金 分 割 。 

定理 2.2 提 供 了 一 种 方法 以 获得 高 阶 线 性 递归 的 全 部 准确 解 ， 不 过 我 们 在 第 3 章 和 第 4 章 还 
要 讨论 这 个 论题 ， 因 为 那里 先进 的 工具 提供 了 方便 的 方法 来 获取 在 实践 中 有 用 的 结果 。 定 理 
3.3 给 出 一 种 容易 的 方法 计算 系数 ， 特 别 是 识别 那些 变 成 零 的 项 。 此 外 推广 了 刚刚 对 斐 波 那 契 
数 观 察 到 的 现象 .由 于 项 w/P" 都 是 指数 的 ， 因 此 对 于 大 的 x，( 在 具有 非 零 系数 的 那些 项 中 间 ，) 
具有 最 大 PB 的 那些 项 将 控制 所 有 其 他 的 项 ， 而 在 这 些 项 中 具有 最 大 的 j 的 项 将 起 决定 的 作用 。 
生成 函数 (定理 3.3) 和 渐 近 分 析 (定理 4.1) 给 我 们 提供 了 方便 的 方法 对 于 任意 的 线性 递归 明 
确 地 识别 首 项 并 计算 其 系数 的 值 。 在 某 些 情 形 下 ， 这 可 以 提供 一 条 捷径 来 获取 好 的 近似 解 ， 
特别 是 当 t 很 大 的 时 候 。 对 于 小 的 :， 这 里 描述 的 获取 准确 解 的 方法 是 相当 有 效 的 。 

习题 2.26 Hw RI 


Og = X01 Xap 0 HK, tT (n 3 ft) 


的 非 齐 次 递归 。 
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习题 2.27 给 出 初始 条 件 ao 和 a 使 得 


a, = Sa,_1— 6a, - 4 (n>1) 
的 解 为 a, = 2"。 存 在 使 得 解 为 a, = 2” - 1 的 初始 条 件 吗 ?9 
习题 2.28 给 出 初始 条 件 ao, ai 和 az 使 得 
a, = 2a,_,; An-2+ 2a,-3 (n> 2) 


的 解 的 增长 率 为 全 常数 ，( 训 指数 ，(iiD 符 号 波动 。 
习题 2.29 求解 递归 


a, = 24,-,+4@,-2 (n>1, a,=2, ao= 1) 
习题 2.30 求解 递归 
a, = 2an- T A,-2 (n>1, a=0, a,=1) 


将 初始 条 件 改 为 ao =a, = 1， 再 求解 这 个 递归 。 
习题 2.31 求解 递归 


Gy = ap- 7 Ay 2 (n>1, a=0, a,=1) 
习题 2.32 求解 递归 
2a,=3a， 1 一 3a Ta -3 (n>2, a9=0, a,=1, a,=2) 
习题 2.33 找 出 描述 一 个 序列 的 递归 ， 这 个 序列 的 奇数 项 的 增长 阶 呈 指数 递减 ， 但 偶数 项 
呈 指 数 递增 。 
习题 2.34 给 出 “3 阶 ” 斐 波 那 契 递 归 
FO = FO + FO, + FO, (N>2, FY = FG) =0, EY =1) 


HME. PD ARS ROE ATR. 

非常 数 系 数 。 如 果 系 数 不 是 常数 ， 那 么 就 需要 更 高 级 的 技巧 ， 因 为 定理 2.2 不 再 适用 。 典 
型 情况 下 ， 生 成 函数 ( 见 第 3 章 ) MUA: ( 见 下 面 ) 是 需要 的 ， 但 是 某 些 更 高 阶 的 问题 可 
以 用 求 和 因子 来 解决 。 例 如 ， 递 归 


a, =na,.,+n(n— 1)a -> (>1，qdl=1，ao=0) 


可 以 通过 用 媳 直 接 除 两 边 而 解 出 ， 此 时 得 到 的 是 以 avym! 表 示 的 斐 波 那 契 递 归 ， 它 指出 eu, = nlF,. 
习题 2.35 求解 递归 
n(n- la, =(n- Vaz ii+a (n>1, a=1, a=1) 


符号 解 。 虽 然 对 寺 高 阶 递归 还 没有 像 定理 2.2 这 样 的 闭 型 ， 但 是 对 一 般 形 式 


Ay = Sn- 18n- 1 十 加 -20n -2 (n>1, a,=1, a) =0) 
的 迭代 结果 已 经 有 了 相当 程度 的 研究 。 对 于 充分 大 的 2， 我 们 有 
a, =s 
a, = 5,8, +t, 


Ay = $4525, + Syl, + £,5, 
as = 84535251 + 38483 + S41231 + 1,825, + bh 
Ag = 858483S281 + S584836] 十 85841281 + 5583S23S1 + S5b3h 


+ 4848S, + tasaty + tabas) 


等 等 。 在 a, 的 展开 式 中 单项 的 项 数 恰 好 是 F,， 且 展开 式 有 许多 其 他 的 性 质 : 它们 与 所 谓 的 接续 
多 项 式 (continuant polynomials) 相关 ， 后 者 则 与 连 分 数 紧 密 相关 ( 见 下 面 )。 具 体 细 市 可 在 





Graham, Knuth#Patashnik [14] 中 找到 。 

习题 2.36 给 出 一 个 简单 算法 来 确定 是 否 给 定 的 单项 ASS Sha hE 现在 a, 的 展开 式 
中 。 这 样 的 单项 式 有 多 少 ? 

我 们 上 面 强 调 ， 对 于 常 系数 的 情况 最 重要 的 是 获得 首 项 的 渐 近 性 能 ， 因 为 虽然 准确 解 可 
用 但 用 起 来 是 元 长 的 。 对 于 非常 数 系数 ， 准 确 解 一 般 不 是 现成 的 ， 因 此 对 许多 的 应 用 我 们 必 
须 满足 于 近似 解 。 现 在 就 来 讨论 获取 这 种 近似 的 方法 。 


2.5 求解 递归 的 方法 


非 线性 递归 或 带 有 变 系 数 的 递归 通常 可 以 从 各 种 不 同 处 理 方法 中 选择 一 种 方法 求解 或 逼 
近 。 本 节 我 们 将 考虑 这 样 的 一 些 方法 和 例子 。 

我 们 一 直 在 处 理 至 少 (原则 上 ) 对 某 些 值 可 以 得 到 准确 解 的 递归 。 这 样 的 问题 在 算法 分 
析 中 的 确 经 常 产生 ， 可 是 我 们 自然 要 估计 到 会 遇 到 没有 已 知 方法 求 其 准确 解 的 那 种 递归 。 现 
在 开始 讨论 处 理 这 种 递归 有 效 的 先进 方法 为 时 尚 早 ， 不 过 现在 可 以 对 如 何 获取 精确 近似 解 给 
出 一 些 指导 方针 并 考虑 若干 实例 。 这 些 方法 对 学 习 关 于 递归 性 能 的 基本 事实 是 有 用 的 ， 尽 管 
更 一 般 或 先进 的 方法 是 适用 的 。 

我 们 考虑 四 种 一 般 的 方法 : 变量 代 换 (change of variable ) ， 它 通过 用 另外 的 变量 重新 计 
算 递 归 而 将 递归 简化 ; 取 值 表 法 (repertoire ) ， 它 从 给 定 的 递归 反 过 来 求 出 解 空 间 ; 自 精 化 方 
法 (bootstrapping ) ， 该 法 首先 求 出 一 个 近似 解 ， 然 后 利用 递归 本 身 再 求 出 更 精确 的 解 ， 如 此 
继续 直到 得 到 足够 精确 的 答案 或 者 不 太 可 能 有 进一步 的 改进 为 止 ; 扰动 《perturbation ) 法 ， 
该 方法 研究 将 递归 变换 为 一 个 类 似 的 、 更 简单 的 、 具 有 已 知 解 的 递归 的 效果 。 前 两 种 方法 常 
常 得 到 递归 的 准确 解 ， 后 两 种 方法 更 经 常用 于 获得 近似 解 。 

变量 代 换 。 定 理 2.1 实 际 上 描述 的 是 变量 代 换 : “如 果 我 们 把 变量 代 换 成 b, = an Ann- 1… 
x!)， 则 5 满足 一 个 简单 递归 ， 当 进行 迭代 时 它 可 以 化 成 一 个 和 式 。” 在 前 一 节 以 及 本 章 中 较 早 
的 一 些 地 方 也 用 到 变量 代 换 。 更 复杂 的 变量 代 换 可 以 用 于 得 到 看 起 来 很 难 的 一 些 递 归 的 准确 
解 。 例 如 考虑 非 线性 二 阶 递归 

a, = aa， (n>1, a) =1, a, =2) 
如 果 我 们 对 这 个 方程 的 两 边 取 对 数 并 做 变量 代 换 b, = lga,， 那 么 我 们 发 现 b, 满 足 


by = Flys tby2) (n>, b=0, b =D 


这 是 一 个 常 系数 线性 递归 。 
习题 2.37 给 出 b。 和 a, 的 准确 公式 。 


习题 2.38 求解 递归 
a, = AL+a2 (n>0,a, =0) 
我 们 的 下 一 个 例子 来 自 寄存 器 分 配 算法 [11] 的 研究 : 


a, =a, -2 (n>0) 


对 于 ao = 0 或 co = 2, Ha, = 2 (n> 1); 而 对 于 ao = 1， 则 解 为 a, = -1 (n>1), 但 是 对 于 更 大 
的 a。， 则 该 递归 对 初始 值 ao 的 依赖 性 要 比 我 们 见 过 的 其 他 一 阶 递归 更 为 复杂 。 
这 是 所 谓 的 二 次 递归 ， 它 是 少数 可 以 通过 变量 代 换 被 显 式 解 出 的 二 次 递归 之 一 。 置 = 
b, + 1/b,， 我 们 得 到 递归 
1 


by t= Bh +r (n>0, by +1/b, =a) 


n-l 
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但 是 这 意味 着 可 以 让 访 = b? RRA, ER BTS Be 
b, = be" 
根据 二 次 方程 ，bo 很 容易 从 ao 计 算 : 


因此 , ; 
SHa adaa) a/ta -aN 
a, (la+ ao 外 rw ay 让 
对 于 ao>>2， 两 个 根 中 只 有 较 大 的 根 ， 即 带 有 加 号 的 那个 根 ， 在 这 个 表达 式 中 起 支配 作用 。 
习题 2.39 从 上 面 的 讨论 ， 对 ao = 3, 4 解 出 寄存 器 分 配 递归 。 讨 论 当 ao = 3/2 时 会 发 生 什 么 
情况 。 
习题 2.40 对 ao=2+8 求 解 寄存 器 分 配 递归 , 其 中 e 是 一 个 任意 固定 的 正常 数 。 给 出 一 个 精 
确 的 近似 答案 。 
习题 2.41 找 出 通过 线性 变换 (b,=f (a, P, Ya, +ga, P, y) HAH Ha, = aa’, + pani tY 
化 成 b, = b?, .1 一 2 的 参数 a, B 和 y 的 所 有 的 值 。 特 别 地 ， 证 明 a, = 2,_ 1+ 1 不 能 化 成 这 种 形式 。 
习题 2.42 [Melzak] 求解 递归 


a, = 2a, Nl-ars (n >0, a) = =| 


其 中 ao = 113。 画 出 ae 作为 ao 的 函数 的 图 像 并 解 杰 所 观察 到 的 现象 。 

一 方面 ， 基 础 线性 性 可 能 很 难 认 出 ， 而 找 出 求解 非 线性 递归 的 变量 代 换 并 不 比 找 出 计算 
定 积分 的 变量 代 换 容易 。 事 实 上 ， 可 以 使 用 更 高 级 的 分 析 (和 迭代 理论 ) 来 证 明 ， 大 多 数 非 线 
- 性 递归 不 能 以 这 种 方式 化 简 。 另 一 方面 ， 简 化 产生 于 实践 中 的 递归 的 变量 代 换 可 能 不 难 找到 ， 
有 些 变换 可 能 导致 线性 的 形式 。 正 如 寄存 器 分 配 的 例子 所 表述 的 ， 这 样 的 递归 确实 在 算法 分 
析 中 发 生 。 

来 看 另外 一 个 例子 。 考 虑 使 用 变量 代 换 获得 与 连 分 式 相 关 的 递归 的 准确 解 。 








as=1/(l+a,.1) (n>0, ao= 1) 
反复 计算 这 个 递归 得 到 序列 
ao=1 
1 
a, = 一 一 = 一 
l+1 2 
a- 1 1 2 
= — -一 -= 二 
1+ 1 3 
十 
o i a 
3 = = 二 一 
1+ 142 5 
1+—— 3 
1+1 
a 1 1 5 
=o eet 
1+ L l+- 8 
1+ i 
1+—\ 
1+1 


[55] 


| 56 | 





等 等 。 从 这 些 初 始 的 值 可 以 认 出 斐 波 那 契 数 ， 我 们 当然 想到 形式 w, = b,- /b,, HARA BE 


归 中 则 给 出 
Bunt | b =) 
= 1+ (n>1, by =b, =1) 
b, baai ° i 


(n>1, b =b =1) 





两 边 除 以 5b, _ ,得 到 





它 意味 着 b, = 玉 +，， 即 斐 波 那 契 序列 。 将 这 种 做 法 推广 ， 得 到 一 种 把 一 般 的 “ 连 分 式 ” 类 表 
示 成 递归 的 解 的 方法 。 
习题 2.43 求解 递归 
_ aa, +B 


a, = n>0, a, =1 
. Yanı +6 ° ) 


习题 2.44 考虑 递归 


a, =1/(s, +t,4,-1) (n>0, a) =1) 


其 中 {ss} 和 {4} 是 任意 的 序列 。 把 a 表示 成 由 一 个 线性 递归 定义 的 序列 中 的 两 个 相 邻 项 的 比 。 
取 值 表 法 。 在 某 些 情况 下 通 向 准确 解 的 另外 一 种 方法 是 所 谓 的 取 值 表 法 ， 此 时 我 们 使 用 
一 些 已 知 的 函数 找 出 类 似 所 要 寻找 的 解 的 一 族 解 ， 将 它们 组 合 以 给 出 答案 。 这 种 方法 主要 适 
用 于 线性 递归 ， 包 括 下 列 几 步 : 
© 通过 添加 一 个 附加 的 函数 项 将 递归 松弛 ; 
。 将 一 些 已 知 的 函数 代入 到 递归 中 ， 得 到 类 似 于 该 递归 的 一 些 等 式 ; 
。 将 这 些 等 式 线性 组 合 ， 得 到 恒 等 于 该 递归 的 方程 。 
例如 ， 考 虑 递归 


a,=(n- 1)a,.;~- na,_,+n- 1 (n> 1, ao=al= 1) 
在 等 号 右边 引入 -个 量 f(n)， 于 是 我 们 想 要 求解 
a, = (n ~ Pan- i ~ na,- +f (n) 


其 中 n>1 且 ao = aj = 1 以 及 f(n) =n 一 1。 为 此 ， 我 们 为 a, 列 出 各 种 可 能 并 观察 f ORIRE 
够 求解 (暂时 不 管 初始 条 件 ) 递归 的 取 值 表 。 对 于 这 个 例子 ， 我 们 得 到 下 面 的 表 : 








a, a, — (n~ 1)a -it+Pnan -2 
1 2 

n n-1 

n n+l 





表 的 第 1 行 说 的 是 4a, = 1 是 f (n) = 2 (AR MAP a, = Ala, = 1) 时 的 一 个 解 ; 第 2 行 说 的 
Ea, = nf f (n) =n- 1 (以 及 初始 条 件 oe = 0 和 ai = 1) 时 的 一 个 解 ; 而 第 3 行 则 是 说 a = n° 
Ef(n)=n+1 (以 及 初始 条 件 oo = 0 和 al = 1) 时 的 一 个 解 。 现 在 ， 它 们 的 线性 组 合 也 是 解 。 
从 第 3 行 减 去 第 1 行 得 到 的 结果 意味 着 a, =n? - 1 是 f(n) =n 一 1 (以 及 初始 条 件 ao = -1 和 ai = 0) 
时 的 一 个 解 。 现 在 对 于 f(n) = n - 1， 我 们 有 两 个 (线性 无 关 的 ) 解 ， 将 它们 组 合 而 得 到 右边 
的 初始 值 ， 产 生 结 果 a,。 =n- n+l, 





该 法 的 成 功 依赖 于 能 够 找到 一 组 线性 无 关 的 解 以 及 对 初始 条 件 的 恰当 处 理 。 对 解 的 形式 
的 直觉 和 知识 对 于 确定 取 值 表 是 有 用 的 。 使 用 该 法 的 经 典 例子 在 Knuth 和 Sch5nhage[20] 对 一 
个 等 价 算法 的 分 析 中 使 用 。 

对 于 Quicksort 递 归 ， 我 们 从 


2 
a, = f(n)+— a. 
> J 


开始 ， 其 中 n>0 且 ao = 0。 这 导致 下 面 的 取 值 表 








a, a, -23,. seats) 
1 -1 
H, -H,+2 
n 1 
A(n + 1) 0 
nH, Fin D+, 
13 
n(n — 1) z“ -l¢n-1 





于 是 ，2nH, + 2H, + A(n+ 1) 一 2 是 fn) =n + IRAR WA = 2 分 解 初 始 值得 到 解 
2(n + 1)H,— 2n 


正如 所 料 (ERL) RMR, MARE, WAHT RHR ARM 
也 许 认 为 解 可 能 是 O(n log n)。 注 意 ， 取 值 表 也 可 以 方便 地 给 出 对 于 其 他 的 f(n) 的 解 ， 不 过 可 
能 需要 更 详细 的 算法 分 析 。 

习题 2.45 RMQuicksort#¥ H, HH fin) =n’, 

习题 2.46 [Greene and Knuth] 求解 Quicksort 三 数 中 值 递 归 ( 见 第 1 章 中 的 方程 (1-4))， 
使 用 取 值 表 法 (对 于 该 递归 使 用 差分 和 求 和 因子 的 直接 解 ， 见 [18] 或 [24]， 而 对 于 使 用 生成 函 
数 得 到 的 解 ， 见 第 3 章 )。 

自 精 化 方法 。 我 们 常常 能 够 猜测 一 个 递归 的 解 的 近似 值 、 然 后 递归 本 身 可 以 用 来 对 估计 
施加 限制 ， 以 便 得 到 更 精确 的 估计 。 这 种 方法 非 正式 地 分 为 如 下 几 步 : 

。 使 用 递归 计算 一 些 数值 ; 

。 猜 测 解 的 近似 形式 ; 

。 把 近似 解 代 回 到 递归 ; 

。 根 据 所 猜测 的 解 和 代入 的 情况 ， 证 明 解 的 更 接近 的 界 。 

为 了 叙述 清楚 ， 设 将 这 种 方法 应 用 到 斐 波 那 契 递归 : 

G4, =4,-,t+4,~2 (n> 1H.a, = 0 和 a = 1) 

首先 我 们 注意 a, 是 递增 的 ， 因 此 a _ ,> a - ;和 a > 2a,- ,。 重 复 这 个 不 等 式 则 有 a, > 2%, FE 
我 们 知道 4, 至 少 是 指数 的 增长 率 。 另 一 方面 ，a, -<a, -! 意 味 着 a,<2a, -1, 或 (重复 使 用 而 有 ) 
a, <2"。 这 样 ， 我 们 就 证 明了 a, 的 指数 增长 的 上 界 和 下 界 ， 而 且 我 们 感觉 猜测 解 的 形式 wu ~ coo” 
正确 ， 其 中 V2< ac<2。 从 递归 得 知 a 必 然 满 足 只 -a- 1 = 0， 由 此 得 到 J 十 只。 确定 a 的 值 以 
后 ， 我 们 可 以 进行 自 精 化 并 回 到 递归 和 初始 值 以 找 出 适当 的 系数 。 

习题 2.47 求解 递归 





a, = 2/(n + a, 1) (n>0, ao= 1) 
习题 2.48 使 用 自 精 化 方法 证 明 三 数 中 值 Quicksort 用 到 aNInN + O(N) 次 比较 ， 确 定 a 的 
值 。 
习题 2.49 [Greene 和 Knuth] 使 用 自 精 化 方法 证 明 
a 


a, = 一 


一 一 一 0, =] 
nt nk mee 


的 解 满足 ia = 0O(1)。 

扰动 法 。 另 外 一 种 求 递 归 近 似 解 的 途径 是 求解 一 个 更 简单 的 相关 递归 。 这 是 求解 递归 的 
一 般 处 理 方法 ， 它 首先 经 过 研究 抽取 占 支配 地 位 的 主要 部 分 而 得 到 一 个 简化 的 递归 ， 求 解 简 
化 的 递归 ， 然 后 比较 原始 递归 和 简化 递归 的 解 。 这 种 方法 类 似 数 值 分 析 中 一 类 熟知 的 方法 ， 
即 扰动 方法 (perturbation methods )。 这 种 方法 可 以 非 正 式 地 分 为 如 下 几 步 进行 : 

。 将 递归 进行 微小 的 修改 ， 使 变 成 一 个 已 知 的 递归 ; 

。 变 换 变量 使 获得 已 知 的 界 并 变换 成 一 个 关于 解 的 〈 更 小 的 ) 未 知 部 分 的 递归 ; 

。 定 界 或 求解 未 知 的 “误差 ”项 。 
例如 ， 考 虑 递归 


Cr-_l 
Qn = 24, + n (n>1, a, =1, a, =2) 





看 来 有 理由 假设 其 中 的 最 后 一 项 只 对 递归 产生 微小 的 影响 ， 因 为 它 的 系数 是 Ln "， 于 是 
l an1 = 2a, 
可 以 预料 ， 粗 略 的 形式 为 a, = 2"。 为 了 更 精确 ， 我 们 考虑 更 简单 的 序列 
bn = 2b, (n>0, pb =) 
(从 而 b, = 2") 并 通过 形成 比值 来 比较 这 两 个 递归 
p= 
从 这 两 个 递归 我 们 得 到 l 
Pri =P +TP (n>0, =D 
显然 ，p, 是 递增 的 。 为 了 证 明 它 们 趋向 于 一 个 常数 ， 注 意 


1 n 1 
Past < pll+ 3 | (4 21) 从 而 Pan <JJ) 


但 是 对 应 右边 的 无 穷 乘积 单调 收敛 到 


a, = IGE =1.46505--- 
因此 p, 以 oo 为 上 界 ， 并 且 随 着 它 的 增长 ， 它 必 然 收敛 到 一 个 常数 。 这 样 ， 我 们 就 证 明了 
a~0.2" 
其 中 常数 w< 1.46505… (此 外 ， 这 个 界 并 不 太 粗 糙 ， 例 如 pio = 1.44130…)。 


上 面 的 例子 只 是 一 个 简单 的 例子 ， 目 的 就 是 阐述 这 个 方法 。 一 般 说 来 ， 情 况 可 能 要 更 复 
杂 ， 可 能 需要 将 方法 选 代 若干 步 ， 很 可 能 要 引入 几 个 中 间 的 递归 。 它 涉及 自 精 化 方法 ， 这 种 
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方法 我 们 刚刚 讨论 过 。 如 果 简 化 的 递归 只 有 非 闭 型 的 表达 式 ， 那 么 也 可 能 发 生 困难 。 虽 然 如 
此 ， 扰 动 方法 仍 是 计算 递归 渐 近 解 的 重要 方法 。 
习题 2.50 求 出 “扰动 的 ” 斐 波 那 契 递归 


1 1 . 
a, = (14a, +(1-—)a,., (n>1, a =0, a, =1) 


的 解 的 渐 近 增长 。 
习题 2.51 求解 递归 
a, = Napi + na, (n > l, a= 1, ay = 0) 
习题 2.52 [Aho and Sloane] 递归 
a,=a2,+1 (n>0, a =1) 


满足 a, ~ Aax"， 其 中 4 和 a 均 为 常量 。 求 对 于 a 的 收敛 级 数 并 确定 a 到 50 位 十 进 制 小 数 。( 提 示 : 
考虑 b= lg ano) 
习题 2.53 RAFI EAA RAH H 


a, = (1- Ta, ta) (>t ao= =) 
\ n 
AAP un 多 的 解 并 确定 C。 
2.6 二 分 分 治 递归 和 二 进 制 数 
通过 应 用 下 面 基 本 算法 设计 范例 我 们 可 以 得 到 各 种 大 量 问 题 的 好 算法 : 把 问题 分 成 两 个 
相等 大 小 的 子 问题 ， 递 归 地 将 它们 解 出 ， 然 后 应 用 所 得 到 的 解 再 来 求解 原 问题 。Mergesort 就 是 


这 种 算法 的 一 个 原型 ， 例 如 ( 见 1.2 节 中 定理 1.2 的 证 明 )，Mergesort 所 使 用 的 比较 次 数 由 递归 
Cyr=CnatCnat+N (N 1, G=0) (2-4) 


的 解 给 出 。 这 个 递归 和 其 他 跟 它 类 似 的 递归 产生 于 在 与 Mergesort 具 有 相同 基本 结构 的 各 种 算 
法 的 分 析 之 中 。 通 常 能 够 确定 满足 这 种 递归 的 函数 的 渐 近 增长 ， 但 是 需要 在 获取 准确 结果 方 
面 特别 仔细 ， 主 要 是 因为 若 N 是 奇数 则 大 小 为 N 的 问题 不 能 被 分 成 两 个 相等 大 小 的 子 问题 ， 能 
够 做 到 最 好 的 情形 是 使 问题 的 大 小 相差 为 !。 对 于 大 的 N 这 是 可 以 忽略 的 ， 不 过 对 于 小 的 N 需 [62| 
要 注意 ， 通 常 这 种 递归 结构 都 要 涉及 许多 小 的 子 问题 。 

我 们 很 快 就 要 看 到 ， 这 意味 着 准确 解 趋向 于 有 周期 ， 有 时 甚至 是 严重 不 连续 ， 且 常常 不 
能 够 用 光滑 函数 来 描述 的 情形 。 例 如 ， 图 2-1 显 示 Mergesort 递 归 式 2-4 和 类 似 的 递归 

Cy = 2C yin, +N (N>1, C,=0) 


的 解 。 前 者 相对 平滑 ， 后 者 的 解 以 缺乏 连续 的 基于 不 规则 碎 段 的 性 能 为 其 特征 ， 这 种 性 能 党 
出 现在 分 治 递归 中 。 

在 图 2-1 中 描述 的 两 个 函数 是 ~ N lgN 并 且 当 N 是 2 的 寡 时 精确 地 等 于 N lgN 的 。 图 2-2 还 是 
这 两 个 函数 ， 只 不 过 是 减 掉 NIgN 后 的 图 ， 它 解释 了 这 两 个 函数 的 线性 项 的 周期 行为 。 与 
Mergesort 相 关 的 周期 函数 的 值 相 当 小 且 连 续 ， 但 其 导 数 在 2 的 短处 不 连续 ， 另 一 个 函数 的 值 相 
对 要 大 而 且 基 本 上 是 不 连续 的 。 这 样 的 行为 使 得 我 们 在 试图 对 比较 程序 进行 精确 甚至 是 渐 近 
估计 的 时 候 都 会 遇 到 问题 。 然 而 幸运 的 是 ， 当 递归 用 数字 表示 法 的 方式 理解 的 时 候 ， 通 常 我 
们 可 以 相当 容易 地 看 出 解 的 本 性 。 为 了 解释 这 一 点 ， 我 们 开始 考虑 另外 一 个 重要 的 算法 ， 它 
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是 一 般 问 题 求 解 策略 的 特殊 实例 ， 可 以 追溯 到 古代 。 


2048 J 


ia 








384 
T T Å 
64 128 256 
图 2-1 二 分 分 治 递归 的 解 
Cy =Cuwn tC tN (下 面 的 曲线 ) 
Cy = Cixi + Ciwa +N (上 面 的 曲线 ) 
384 
192 
96 


32 64 128 256 
图 2-2 二 分 分 治 递 归 的 周期 项 
Cy =O nia + Cini, +N (下 面 的 曲线 ) 
Cy = [N72] + Civa +N (上 面 的 曲线 ) 


折 半 查找 。 最 简单 和 最 著名 的 二 分 分 治 算法 之 一 是 所 谓 的 折 半 查找 (binary search)。 给 
定 一 个 固定 的 数 集 ， 我 们 希望 能 够 迅速 确定 一 个 所 要 查找 的 数 是 否 在 这 个 集合 中 。 为 此 ， 首 
先 将 数 集中 的 数 排序 ， 然 后 对 于 任意 被 查找 的 数 ， 我 们 可 以 使 用 程序 2.2 所 示 的 过 程 ， 查 看 一 
下 中 间 的 数 ， 如 果 被 查找 的 数 较 小 ， 那 么 再 (递归 地 ) 使 用 相同 的 方法 查看 表 的 左 半 部 分 。 


定理 2.3 ( 折 半 查找 ) 在 对 大 小 为 N 的 表 进 行 折 半 查找 的 不 成 功 搜索 中 所 用 到 的 比较 次 
数 在 最 坏 情 形 下 等 于 N 的 二 进 制 表示 的 位 数 。 二 者 均 可 由 递归 
By =By>,+1 (N> 2, B =1) 


LIN/2] 
描述 ， 它 的 准确 解 B, = |lgN|+1。 
证 明 “在 查看 “中 间 ” 之 后 ， 一 个 元 素 被 删除 ， 文 件 的 两 部 分 大 小 分 别 为 [YX-D/12| 和 


[CN-D/12] 。 通 过 分 别 检查 奇数 V 和 偶数 N 来 建立 递归 ， 两 个 数 中 的 大 者 总 是 [和 /2] 。 例 如 在 
大 小 为 83 的 表 中 ， 在 第 1 次 比较 之 后 两 个 子 文件 的 大 小 都 是 41， 可 是 在 大 小 为 82 的 表 中 ， 一 个 





PR 


子 文件 的 大 小 为 40， 而 另 一 个 的 大 小 为 41。 

因为 IN/2| 的 计算 正好 等 价 于 将 N 的 二 进 制 表示 右 移 一 个 比特 位 ， 所 以 它 等 于 N 的 二 进 制 
表示 中 的 比特 位 数 (忽略 那些 前 导 0)。 反 复 进行 递归 相当 于 计算 比特 位 的 个 数 ， 当 遇 到 最 高 
位 的 1 时 计算 结束 。 

若 2"<N<2"*! 或 取 对 数 n< 1lgN<n+ 1， 则 NN 的 二 进 制 表示 中 的 比特 数 为 + + 1。 这 就 是 说 ， 
根据 定义 , n= |EN]. a 
程序 2.2 折 半 查找 
function search(l, r, v: integer): integer; 

var x: integer; 
begin 
x := (l+r) div 2; 
if lor 


then << search unsuccessful >> else 
if v = alx] .key 


then search := x else 
if v < a[x] .key 
then search := search(1l, x-1, v) 
else search := search(x+tl, r, v) 
end; 


函数 1gN 和 (IEN | 在 图 2-3 中 与 小 数 部 分 即 {lg 入 = lg N- [IgV | — Em H. 
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图 2-3 lgN (E); lgNj CP); {lg N} CP) 

习题 2.54 在 大 小 为 N 的 表 中 用 折 半 查找 进行 的 不 成 功 查 找 中 所 使 用 的 比较 次 数 在 最 佳 的 
情况 下 是 多 少 ?9 

习题 2.55 ”考虑 “三 分 查找 ”算法 ， 其 中 一 个 文件 被 分 成 三 份 ， 确 定 关 键 字 在 哪 部 分 需 
要 进行 两 次 比较 ， 该 算法 递归 地 使 用 。 写 出 由 该 算法 所 使 用 的 比较 次 数 在 最 坏 情况 下 的 特征 ， 
并 与 折 半 查找 进行 比较 。 l | 

Mergesort 递 归 的 准确 解 。Mergesort 递 归 2-2 容 易 通过 差分 求解 : 如 果 Dw 定 义 为 Cv,1 一 Cys 
那么 Ds 满足 递归 : 


Dy = Dw)t! (N>2, D,=0) 


由 此 得 到 
Dy =|IgN]+2 
于 是 ， 
Cy =N-1+ Dilek) +) 
有 许多 方法 对 该 和 进行 计算 并 求 得 Cw 的 准确 公式 。 如 上 所 述 ， 采用 记录 整数 二 进 制 表示 的 关 
系 的 方法 是 有 用 的 。 特 别 地 我 们 刚 看 到 ， (|igX]+]) 是 k 的 二 进 制 表示 中 的 比特 数 《 忽略 那些 
前 导 0)， 因 此 Cw 正好 是 小 于 N 的 所 有 正 数 的 二 进 制 表示 中 的 比特 数 再 加 上 NN - 1。 
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定理 2.4 (Mergesort) Mergesort 所 使 用 的 比较 次 数 等 于 N - 1 加 上 所 有 小 于 NN 的 数 的 二 
进 制 表示 中 的 比特 数 。 这 两 个 量 均 由 递归 
Cu = Ca + Cw +N (N > 2, C,=0) 


描述 ， 它 的 准确 解 为 Cy =N|IgN | +2N -2N 


证 明 定理 的 第 1 部 分 通过 上 面 的 讨论 建立 。 现 在 ， 所 有 小 于 N 的 N - 1 个 数 都 有 最 右边 的 
人 5 | 一 个 比特 位 ; 它们 中 的 N - 2 个 ( 即 除去 1 后 所 有 的 ) 都 有 一 个 次 最 右边 的 比特 位 ; 它们 中 的 
66] N - 4 个 ( 即 除去 1、2 和 3 后 所 有 的 ) 都 有 一 个 从 最 右边 数 第 3 位 置 上 的 比特 位 ; 它们 中 的 N - 
8 个 都 有 一 个 从 最 右边 数 第 4 位 置 上 的 比特 位 等 等 ， 因 此 我 们 必然 有 
Cy =(N-1)+(N-1)+(N—2)+(N-4) +004 (N— 2081) 
=(N-1)+N([lgN]+1)-(4+2444---4208"1) 
=N|lgN|+2N-— 2leNh! 


正如 上 面 所 注释 过 的 ， [lgN | 是 具有 周期 特性 的 不 连续 函数 。 不 过 我 们 还 提 到 ，Cw 本 身 是 连 
续 的 ， 于 是 在 涉及 [IgN| 的 这 两 个 函数 中 的 不 连续 性 (但 不 是 周期 性 ) 抵消 了 。 这 种 现象 在 
图 2-4 中 做 了 解释 ， 并 被 下 面 的 推论 中 的 计算 所 支持 。 a 
推论 Cw= M gN + N0 (1 - {lg N}), HPO(x)=ltx- 2 是 满足 D(0) = 01) = 0 和 
0< 6 (x) <0.0864—* EHR, HPO<x<1, 
证 明 把 分 解 式 |lgN|=1gN-1gN 代入 直接 得 到 。 值 0.086 = 1 - lge + lg lge 通 过 置 9 (x) 
的 导数 为 0 可 算得 。 国 
习题 2.56 ”通过 考虑 最 右边 的 那些 比特 位 ， 给 出 直接 的 证 明 : 所 有 小 于 N 的 数 的 二 进 制 表 
示 中 的 比特 位 数 满足 式 2-4， 但 是 添加 的 项 是 N - 1 而 不 是 N。 
习题 2.57 证 明 对 所 有 的 正 V， 有 NllgNj+2N-208 = NfigN]+ N-20", (A314) 


1 








64 128 256 
图 2-4 周期 函数 0(1 - {18gN}) 的 合成 
| 1- {lgN} (L) 
1-2108 (中 ) 


2- {lgN -270 (F) 
二 进 制 数 的 其 他 性 质 。 因 为 二 进 制 整数 在 许多 基本 算法 中 自然 地 模拟 〈 二 分 ) 决策 过 程 ， 
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所 以 我 们 来 研究 二 进 制 整 数 的 一 些 性 质 。 上 面 遇 到 的 量 可 能 发 生 在 任何 通过 递归 地 将 其 分 为 
两 部 分 的 问题 求解 算法 的 分 析 中 ， 如 折 半 查找 和 Mergesort 所 用 的 方法 ， 而 类 似 的 量 显然 将 会 
在 其 他 的 分 治 算法 中 产生 。 为 了 完成 我 们 对 二 分 分 治 递归 的 研究 ， 再 考虑 两 个 经 常 发 生 在 算 
法 分 析 中 的 数 的 二 进 制 表示 的 性 质 。 


定义 给 定 一 个 整数 N， 定 义 总 体 计 数 函 数 (population count function) Vw 为 N 的 二 进 

制 表示 中 1 的 个 数 并 定义 累积 总 体 计 数 函 数 (cumulated population count function) Py 

为 所 有 小 于 六 的 数 的 二 进 制 表示 中 1 的 个 数 。 

定义 ”给 定 一 个 整数 NW， 定 义 标 尺 函 数 〈ruler function) 加 为 N 的 二 进 制 表示 中 位 于 

最 后 那些 1 的 个 数 ， 并 定义 累积 标尺 函数 (cumnulated ruler function) RN 为 所 有 小 于 和 N 

的 数 的 二 进 制 表示 中 位 于 最 后 的 1 的 个 数 。 

表 2-3 给 出 N< 16 的 这 些 函 数 的 值 ， 读 者 可 能 发 现 尝试 对 于 大 的 N 计 算 这 些 函 数 的 值 是 有 启 
发 意义 的 。 例 如 ，83 的 二 进 制 表示 为 1010011， 因 此 vss = 4 以 及 Ys = 2。 累 积 的 值 


he > vj 和 Ry= SY; 


0 <j<N O< j<N 
不 那么 容易 计算 。 例 如 Ps = 215 而 Res = 78. 
表 2-3 标尺 及 总 体 计 数 函 数 


N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111 





Vy 1 1 2 1 2 2 3 1 2 3 3 4 
Py 0 1 2 4 5 7 9 12 13 15 17 20 22 25 28 
Wy 1 0 2 0 1 0 3 0 2 0 1 0 4 
Ry 0 1 1 3 3 4 4 7 7 8 10 10 11 11 
不 难看 出 ， 例 如 ， 
Pon = n2"~ 1! 和 Ryn = 2” 一 1 
和 
Py = 5 Nien + O(N) 和 Ry = N+ O(gN) 
不 过 准确 的 表示 和 更 精确 的 源 近 估计 是 很 难得 到 的 ， 如 图 2-5 中 Py - (VlgN)/2 的 图 所 示 。 
108 
54 
27 
0 
-18 
-36 
-72 1 1 i | ' 
32 64 128 256 .512 


图 2-5 比特 计算 中 的 周期 项 和 小 数 项 
{小 于 N 的 那些 数 中 的 比特 1 的 个 数 } - (N lg N)/2 (E) 
{小 于 的 那些 数 中 的 比特 0 的 个 数 } - Vig N)/2 (F) 
{小 于 N 的 那些 数 中 的 比特 数 } ~ Ng N (中 ) 
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上 面 提 到 ， 这 种 类 型 的 函数 满足 那些 能 够 直接 得 到 但 是 可 能 明显 不 同 的 递归 ， 甚 至 是 在 描述 
相同 的 量 的 时 候 。 例 如 考虑 最 左边 的 比特 ， 我 们 看 到 小 于 N 的 那 2*"! 个 数 以 0 开始 而 其 余 的 则 
以 1 开始 ， 因 此 我 们 有 

Py =P un +N 2 +P en 
不 过 考虑 最 右边 的 比特 ， 显 然 


Py = Enny t Ania t [N72] 


这 类 似 和 于 Mergesort 递 归 ， 它 与 对 所 有 小 于 N 的 比特 的 计数 有 关 (应 该 有 大 约 一 半 的 比特 1 那么 
多 )， 但 这 个 函数 却 显 著 不 同 。( 比较 图 2-5 和 图 2-2) 对 比特 0 计数 的 函数 是 类 似 的 : 二 者 在 性 
能 上 都 是 碎 段 形 , 但 是 它们 相互 抵消 而 形成 周期 的 连续 函数 , 我 们 前 面 已 经 见 到 过 ( 见 图 2-2)。 
Delange[7] 详 细 地 研究 了 函数 Pn， 并 用 无 处 可 微 的 函数 来 表示 。 

其 他 递归 。 折 半 查 找 和 Mergesort 是 典型 的 “二 分 分 治 ” 算 法 ， 它 们 阑 述 这 样 一 些 算法 的 
实施 是 多 么 的 自然 ， 以 及 可 能 的 解 的 特征 。 我 们 给 出 的 例子 和 对 已 经 看 到 的 数 的 二 进 制 表 示 
的 性 质 的 关系 ， 使 得 沿 着 我 们 一 直 在 讨论 的 方向 获取 其 他 类 似 递 归 的 更 精确 的 解 成 为 可 能 ， 
记 住 这 样 的 事实 : 因为 所 涉及 的 、 甚 至 是 主 项 中 的 函数 的 碎 段 式 的 性 能 ， 精 确 解 可 能 是 难以 
琢磨 (或 没有 我 们 想像 的 那么 有 用 ) 的 。 表 2-4 显 示 通 常 产 生 的 一 些 递 归 以 及 从 下 一 节 给 出 的 
几 个 一 般 定 理 中 得 到 的 近似 解 。 在 这 个 表 中 ，aw> 意 味 着 annj X ain > 2a ARE “ayn 
+ awz” 等 等 一 -在 下 一 节 我 们 讨论 这 类 小 的 变动 不 影响 表 2-4 中 给 出 的 渐 近 结果 (不 过 它们 妨 
碍 我 们 给 出 更 一 般 的 估计 )。 

正常 情况 下 ， 涉 及 这 种 递归 的 应 用 包括 最 坏 情 形 的 结果 ， 如 定理 2.5 和 定理 2.6， 但 是 如 果 
子 问 题 是 独立 的 并 且 在 分 割 后 仍然 是 “随机 ”的 ， 那 么 对 于 某 些 问 题 ， 这 些 结果 也 可 以 产生 
期 望 的 开销 。 


(N>1, B =0) 


2-4 二 分 分 治 递归 及 解 


Qy = Ayn + 1 lgN + O(1) 

Gy = Ayn + N 2N + O(gN) 

ay = ayn + NigN O(NIgN) 

ay = 2ayn + 1 @(N) 

ay = 2ayn + 1gN @(N) 

dy = Zayn + N NiogN + O(N) 

ay = ayn + Nigh SNigN’ + O(N log N) 


Gy = 2awm + Nig? `N 


6 ~' Nig®N + ONE 'N) 


dy = 2awm + N? 2N? + O(N) 
ay = 3awz + N ew?) 
ay = 4ayn + N e>) 





从 数 的 这 些 性 质 到 位 串 的 更 具 组 合 学 特性 的 性 质 实际 上 只 是 一 小 步 ， 认 识 这 一 点 很 重要 。 
例如 ， 假 设 我 们 想 要 知道 随机 位 串 中 连续 的 0 的 最 长 串 的 平均 长 度 ， 比 方 说 是 为 了 对 一 种 运算 
器 的 设计 进行 某 种 优化 。 这 是 数 的 性 质 还 是 表示 它 的 那些 比特 位 的 性 质 ? 这 样 一 些 问题 直接 
导致 更 一 般 应 用 组 合 学 的 研究 ， 我 们 将 在 第 7 章 考虑 。 

在 算法 分 析 中 常常 遇 到 这 种 类 型 的 函数 ， 认 识 到 它们 与 二 进 制 数 的 简单 性 质 之 间 的 关系 
是 很 有 意义 的 。 当 然 在 分 治 算法 之 外 ， 这 些 函 数 还 出 现在 以 二 进 制 表 示 的 数 的 算术 算法 的 直 
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接 分 析 中 。 一 个 著名 的 例子 就 是 加 法 器 中 进位 传送 链 的 期 望 长 度 的 分 析 ， 该 问题 可 以 追溯 到 
B - 诺 依 曼 而 由 Knuth[19] 完 全 解决 。 这 些 结果 直接 与 串 的 基本 算法 分 析 相 关 ， 我 们 将 在 第 7 
章 看 到 。 二 分 分 治 递 归 与 其 解 的 性 质 更 详细 的 研究 见于 Allouche 和 Shallit[21 以 及 Flajolet 和 
Golin[9]. 

习题 2.58 给 出 图 2-5 中 所 画 出 的 几 个 函数 的 递归 。 

习题 2.59 类 似 于 对 上 面 给 出 的 Pw 的 做 法 ， 导 出 对 Rw 的 递归 。 

习题 2.60 BHR 

Ay = Aun + Ania + LIEN] (N> 2, A =0) 


的 解 ， 其 中 1 < N< 512。 
习题 2.61 HERE 


=en t (N> 2, B =0) 
的 解 ， 其 中 1 < N < 512。 
习题 2.62 FH 
Dy = Dinit DP wy + Cw (N>1, D =0) 
的 解 ， 其 中 Cw 为 


C=C +C +N (N>1, C, = 0) 


[w72] 7 IN/2] 


的 解 。 考 虑 在 每 项 中 将 [N/2] 改 成 [IN/2] 所 得 到 的 该 问题 的 变 体 。 

习题 2.63 ” 取 N 的 二 进 制 表示 ， 将 其 倒转 ， 并 解释 它 作 为 一 个 整数 p(N) 的 结果 。 证 明 p(N) 
满足 一 个 分 治 递归。 画 出 它 当 1 <N< 512 时 的 图 ， 并 解释 你 看 到 的 现象 。 l 

习题 2.64 ”在 小 于 N 的 数 的 二 进 制 表示 中 ， 那 些 1 的 初始 串 的 平均 长 度 是 多 少 ? 假设 所 有 
这 样 的 数 都 是 等 可 能 的 。 

习题 2.65 ”长 为 N 的 随机 比特 串 中 ， 那 些 1 的 初始 串 的 平均 长 度 是 多 少 ? 假设 所 有 这 样 的 
串 都 是 等 可 能 的 。 

习题 2.66 ”在 随机 比特 (可 能 是 无 窃 的 ) 序列 中 ， 那 些 ! 的 初始 串 的 长 度 的 平均 值 和 方差 
是 多 少 ? 

习题 2.67 当 二 进 制 计数 器 从 0 到 NN 增加 N 次 时 ， 所 执行 的 进位 的 总 数 是 多 少 ? 


2.7 一 般 的 分 治 递归 


更 一 般 地 ， 有 效 的 算法 和 在 复杂 性 研究 中 的 上 界 常常 通过 扩展 分 治 算法 设计 范例 按照 下 
列 做 法 得 到 : “把 问题 分 成 一 些 更 小 (或 许 有 重合 ) 的 子 问题 ， 递 归 地 求解 这 些 子 问题 ， 然 后 
用 所 得 到 的 解 去 求解 原 问 题 " 。 大 量 各 种 “分 治 ” 递 归 出 现 ， 它 们 依赖 于 子 问题 的 个 数 和 相对 
大 小 、 这 些 子 问题 重 又 的 部 分 以 及 为 了 求解 原 问 题 而 将 它们 重新 组 合 起 来 的 开销 。 确 定 满足 
这 些 递归 的 函数 的 渐 近 增长 通常 是 可 能 的 ， 不 过 如 上 所 述 ， 所 涉及 的 函数 的 周期 性 和 碎 段 性 
使 得 有 必要 仔细 地 说 明细 节 。 

为 了 寻求 一 般 解 ， 我 们 从 递 推 公式 

a(x) = aa(x/B) + f(x) (x>1, a(x) = 0(x < 1)) 

开始 ， 确 定 一 个 定义 在 正 实数 上 的 函数 。 这 本 质 上 对 应 一 个 分 治 算法 ， 该 算法 将 一 个 大 小 为 x 
的 问题 分 成 大 小 为 x/B 的 a 个 子 问题 ， 并 将 它们 以 (x) 的 代价 重新 组 合 。 这 里 ，a(7%) 是 一 个 由 正 
实数 x 定义 的 函数 ， 从 而 a(x/B) 是 严格 定义 的 。 在 大 部 分 的 应 用 中 ，a 和 BB 将 是 整数 ， 虽 然 我 们 
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在 获取 解 的 过 程 中 并 不 使 用 这 个 事实 。 当 然 ， 我 们 坚持 B> 1. 
例如 ， 考 虚 f(x) = x 的 情形 ， 而 且 限 定 整 数 N = Bp"。 在 这 种 情形 下 ， 我 们 有 


ao = Oa gn! +B" (n>0, a, =0) 


用 of 除 两 边 ， 并 重复 进行 ( 即 应 用 定理 2.1)， 我 们 得 到 解 


ere D (a) 


现在 存在 三 种 情形 : 如 果 w> 6， 则 该 和 收敛 到 一 个 常数 ;如 果 a = 6， 则 它 的 值 是 x; 如 果 a < 
8， 则 该 和 由 最 后 的 一 项 控制 ， 从 而 是 C(B/a"。 由 于 o = (y= (P")"p*， 这 就 是 说 该 递归 
的 解 当 a> BRAON"), a= PAON log N), mH a< 有时 为 OUV)。 虽然 这 个 解 只 \ 对 N = 
PP" 成 立 ,但 是 它 解释 了 在 一 般 情形 下 所 过 到 的 整体 结构 。 


定理 2.5 (Pie HK) 如 果 函 数 a(X) 满 足 递 归 
a(x) = aa(x/B) +x (x>1,a(x)=0(x<1)) 


„B 
#a<p a(x) B- 





x 
a 
= a= fh a(x) ~ xlog, x 


a B Togga) logga 
#a>ß rA xP 
证 明 基本 想法 是 重复 进行 递归 直到 子 问题 能 够 使 用 初始 条 件 时 为 止 ， 该 想法 适用 所 有 的 
分 治 递归 。 此 处 ， 我 们 有 


a 


a(x) =x+aa(x/ B) 


x 
= 一 / 2 
r+ a+ Ox 8°) 


x x 
=x+a—+07 —+aa(x/B°) 


B B 
等 等 。 在 1= |1ogex| 次 迭代 后 ， 所 出 现 的 项 aeCxwB 可 以 用 0 来 代替 ， 和 迭代 过 程 终止 。 这 就 得 出 
解 的 准确 表示 : 


现在 ， 可 以 考虑 三 种 不 同 的 情况 。 首 先 ， 如 果 w< B， 则 和 收敛 且 


a\ B 
ae) D5) p-a” 
其 次 ， 如 果 a = 6， 则 和 中 的 每 一 项 都 是 1 ， 解 就 是 
a(x) = x(|log, x | +1) ~ xlog, x 
第 三 ， 如 果 a> 5， 那 么 和 中 的 最 后 一 项 占 支配 地 位 ， 从 而 
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zla) 
a-B\B 
如 上 所 述 ， 第 三 种 情形 中 的 表达 式 的 周期 特性 可 以 通过 把 logsx 的 整数 部 分 和 小 数 部 分 分 

开 而 得 以 分 离 ， 并 且 写 成 t= |1085 x| = log x- {log 对 。 由 此 得 到 


(2) (2) (a) —{log g x} _ pore 
B B B a 


EA Harte = xe, EAER. 

对 于 a < Bp， 在 首 项 中 没有 周期 性 能 ， 但 是 对 于 a > 6， 项 rsp" 的 系数 是 logex 的 周期 函数 ， 
它 是 有 界 的 并 在 a/(a - PAMBA- 有 ) 之 间 振 荡 。 a 

图 2-6 阐 述 了 c 和 相关 的 值 如 何 影响 函数 的 渐 近 增长 。 图 中 的 方 格 对 应 分 治 算法 的 问题 的 
大 小 。 最 上 面 的 图 指出 性 能 如 何 是 线性 的 ， 因 为 问题 的 大 小 以 指数 速度 趋向 于 0， 其 中 ， 一 个 
问题 分 裂 成 两 个 子 问题 ， 而 每 个 子 问题 是 原 问 题 的 三 分 之 一 大 小 。 中 间 的 图 指出 整个 问题 大 
小 是 如 何平 衡 的 ， 因 此 需要 一 个 “log” 乘 法 因子 ， 这 里 一 个 问题 分 裂 成 三 个 子 问 题 ， 而 每 个 
子 问题 是 原 问 题 的 三 分 之 一 大 小 。 最 后 的 图 指出 整个 问题 的 大 小 是 如 何 指数 增长 的 ， 因 此 最 
后 的 项 控制 着 总 数 ， 这 里 一 个 问题 分 裂 成 四 个 子 问 题 ， 而 每 个 子 问题 是 原 问题 的 三 分 之 一 大 
小 。 它 显示 了 渐 近 增 长 ， 反 映 在 一 般 情形 下 所 发 生 情况 的 特征 。 





图 2-6 6=3 和 a=2,3,4 时 分 治 的 情况 
为 了 推广 到 能 够 应 用 到 实际 情况 的 地 步 ， 我 们 需要 考虑 其 他 的 了 (x) 和 比 精确 等 于 子 问 题 
大 小 的 限制 要 宽松 的 细 分 策略 ( 它 将 使 我 们 回 到 对 整数 的 递归 上 来 )。 对 于 其 他 的 f(x)， 我 们 
完全 按照 上 述 进 行 : 在 最 高 一 层 上 我 们 有 一 个 开销 f(x) 的 问题 ， 接 着 有 a 个 开销 f(x/P) 的 问题 ， 
然后 有 o 个 开销 fw) 的 问题 等 等 ， 因 此 总 的 开销 为 
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FOOD)+arGz16)+a2FGc1B2)+… 


如 上 所 述 ， 存 在 三 种 情况 : 如 果 a> 868， 那么 和 中 后 面 的 项 起 主要 作用 ; 如 果 a = B， 则 这 些 项 
大 致 相等 ; 而 如 果 a< 8， 则 前 面 的 项 起 主要 作用 。 函 数 j 的 某 些 “光滑 ”约束 对 于 得 到 精确 
答案 是 需要 的 。 例 如 ， 如 果 我 们 限制 /是 形 如 zlog 妇 " 的 形式 -一 它 实 际 上 代表 复杂 性 研究 中 
出 现 的 那些 函数 的 主要 部 分 一 一 则 一 个 类 似 于 上 面 给 出 的 结论 的 论断 可 以 用 来 证 明 


若 y<1logpa a(x) ~ ¢,x"(logx)® 
#y = logsa a(x) ~ ¢,x"(logx)**! 
y> logga a(x) = O(x'°867) 


其 中 ci 和 ec, 为 相应 的 常数 ， 它 们 依赖 于 ga、pB 和 Yy。 

习题 2.68 给 出 cj 和 cz 的 显 式 公式 。 通 过 从 处 理 5= 0 的 情形 开始 。 

直观 地 看 ， 我 们 期 望 甚至 当 这 些 子 问题 几乎 〈 但 不 必 完 全 ) 有 相同 的 大 小 时 能 够 得 到 同 
类 的 结果 。 事 实 上 ， 因 为 “问题 的 大 小 ”必然 是 整数 ， 所 以 我 们 必须 考虑 这 种 情况 : 当然 把 
一 个 大 小 为 奇数 的 文件 分 成 两 部 分 得 到 几乎 而 不 是 完全 相同 的 大 小 的 子 问题 。 而 且 为 了 估计 
a(x) 的 增长 ， 我 们 不 期 望 必须 有 f(x) 的 准确 的 值 。 当 然 ， 我 们 也 对 那些 只 定义 在 整数 上 的 函数 
有 兴趣 。 综 合 起 来 我 们 得 到 一 个 对 于 各 种 算法 的 分 析 都 是 有 用 的 结果 。 


定理 2.6 (分 治 序 列 ) 如 果 通 过 把 一 个 大 小 为 m 的 问题 分 成 部 分 ， 每 部 分 大 小 为 mVC + 
O(1)， 并 在 独立 地 求解 这 些 子 问题 时 因 分 割 和 组 合 附 加 开销 f(n)， 而 使 一 个 分 治 算 法 
成 功 进行 ， 那么 当 f(n) = B(n"logn)) 时 ， 总 的 开销 由 


Hy <logga a, = On’ (logn)’) 
#iy = logga a, = @(n"(logn)**') 
#y> logya a, = @(n'#6%) 
给 出 。 
证 明 一 般 的 策略 与 上 面相 同 : 重复 递归 直到 初始 条 件 满足 为 止 ， 然 后 将 项 集中 起 来 。 所 
涉及 的 计算 是 相当 复杂 的 ， 这 里 略 去 。 细 节 可 以 在 Flajoletf 和 Sedgewickf13] 中 找到 。 | 


在 复杂 性 研究 中 ， 常 常 使 用 更 一 般 的 公式 表示 ， 因 为 可 以 使 用 的 f(n) 的 信息 不 那么 具体 。 
在 对 f(n) 光 滑 性 的 适当 条 件 下 ， 可 以 证 明 


车 f(n) = O(n" °) a, = Gaogpo) 
# f(n) = O(n""8s7) a, = O(n'®P logn) 
#5 f(n) = Q(n'86* 5) a, = O(f (n)) 


这 个 结果 主要 归 因 于 Bentley、Haken 和 Saxe[4] ， 类 似 结果 的 完善 证 明 也 见于 [5]。 这 类 结 
果 通 常用 来 证 明 算法 渐 近 性 能 的 上 界 和 下 界 ， 方 靶 是 选择 /Ca) 给 开销 适当 定 界 。 本 书 我 们 的 
兴趣 通常 在 于 对 具体 的 F(m) 获 取 更 为 精确 的 结果 。 

习题 2.69 画 出 递归 


Ay = 34) ya +N (N >2, a =a, =a, =1) 


的 解 的 周期 部 分 ， 其 中 1 < N< 512。 
习题 2.70 ”对 于 将 一 个 大 小 为 N 的 问题 分 成 3 部 分 ， 且 每 部 分 大 小 或 者 [IN/3] 或 者 [N3] 
的 其 他 可 能 的 方法 回答 前 面 的 问题 。 
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习题 2.71 给 出 递归 


a(x) = Qag +t 2" (x>1, a(x) = 0(x< 1)) 


的 渐 近 解 。 
习题 2.72 给 出 递归 
Ay = Gaw4 + aya + N (N>2, a, = a= a;= 1) 
的 渐 近 解 。 
习题 2.73 给 出 递归 
ay = Ayn + Ang + N (N>2, a, = a, =a; = 1) 
的 渐 近 解 。 
习题 2.74 考虑 递归 
On = Agn) + Agin + Arm + 1 (n>t, a, = 1(n<t)) 


其 中 约束 为 f(n) + g(n) + h(n) =n。 证 明 a, = O(n). 
习题 2.75 考虑 递归 


Gy = Ayn) + agm + 1 (N>t, a, = (n<) 


`、 其 中 f(n) + g(n) =n 一 h(n), BRR BER Snot a,/n-O Wh) RAE. 

BREA ARMM ARABS, MEAIB OTA eA A RE RT A 
们 服务 ， 因 此 本 章 我 们 综述 了 能 够 发 生 的 递 推 关系 的 类 型 和 使 用 它们 进行 模拟 的 某 些 方法 。 
为 了 能 够 获取 描述 重要 性 能 特征 的 递 推 关系 而 足够 准确 地 理解 一 个 算法 常常 是 分 析 该 算法 的 
重要 的 第 一 步 。 给 定 一 个 递 推 关系 ， 即 使 解析 解 太 难 而 得 不 到 ， 我 们 还 是 常常 可 以 计算 或 估 
计 实 际 应 用 中 所 需要 的 参数 的 。 

存在 大 量 的 文献 论述 “差分 方程 ”和 递归 ， 我 们 从 这 些 文 献 中 尽量 选择 一 些 有 用 的 和 相 
关 的 工具 、 方 法 和 实例 。 有 些 一 般 的 和 基本 的 数学 工具 处 理 递 归 ， 但 是 找 出 解决 一 个 特定 递 
归 的 适当 的 途径 常常 具有 挑战 性 。 然 而 ， 仔 细 的 分 析 可 以 有 助 于 对 发 生 于 实践 中 的 大 量 递归 
的 基本 性 质 的 理解 。 我 们 可 以 计算 递归 的 值 以 得 到 它 的 增长 率 的 某 些 想法 ， 尝 试 秋 缩 (重复) 
递归 以 获得 解 的 渐 近 形式 的 想法 ; 或 是 寻找 一 个 求 和 因子 、 变 量变 换 或 一 组 能 够 导致 准确 解 
的 取 值 表 ; 或 者 应 用 诸如 自 精 化 方法 或 扰动 方法 这 样 的 逼近 技术 以 得 到 对 解 的 估计 。 

计算 复杂 性 研究 常常 依赖 于 求解 为 算法 性 能 特征 进行 估计 和 定 界 的 递归 。 特 别 地 ， 本 
章 末 尾 的 “分 治 ” 递 归 在 计算 复杂 性 文献 中 出 现 得 特别 多 。 大 部 分 这 种 递归 都 有 类 似 的 结 
构 ， 它 们 反映 在 算法 设计 中 平衡 的 程度 。 它 们 还 与 数 系 的 性 质 紧 密 相关 ， 从 而 当 仔细 分 析 
时 趋向 于 展现 碎 段 式 的 性 能 。 像 我 们 已 经 看 到 的 这 种 近似 的 界 对 在 复杂 性 证 明 中 上 界 的 获 
得 是 适宜 (并 被 广泛 使 用 ) 的 ， 不 过 对 分 析 算 法 的 性 能 则 不 是 必须 的 ， 因 为 它们 不 是 总 能 
够 提供 足够 精确 的 信息 以 使 我 们 预报 性 能 。 虽 然 我 们 必须 认识 到 在 解 中 将 涉及 周期 性 和 可 
能 的 砍 段 性 ， 但 是 在 拥有 关于 f(n) 和 分 治 方法 更 精确 的 信息 的 情况 下 ，、 我 们 还 是 常常 能 够 
得 到 更 精确 的 估计 。 

我 们 的 讨论 一 直 限 制 在 一 个 指标 N 的 递归 的 情况 。 对 于 多 元 的 和 其 他 类 型 的 递归 ， 我 们 打 
算 在 介绍 求解 这 些 递 归 的 更 先进 的 工具 之 后 再 进行 讨论 。 

在 算法 性 能 特征 的 研究 中 递归 以 一 种 自然 的 方式 产生 。 当 我 们 对 复杂 算法 进行 详细 分 析 
的 时 候 ， 会 遇 到 求解 相当 复杂 的 递归 。 在 下 一 章 ， 我 们 介绍 生成 函数 ， 它 是 算法 分 析 的 基础 。 
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生成 函数 不 仅 能 够 帮助 我 们 求解 递归 ， 而 且 它们 和 算法 在 一 个 更 高 的 层次 上 有 着 直接 的 联系 ， 
使 我 们 得 到 由 深入 到 许多 应 用 内 部 的 递归 所 描述 的 详细 的 结构 。 
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第 3 章 生成 函数 


在 这 一 章 ， 我 们 将 介绍 在 进行 算法 平均 情形 分 析 时 所 使 用 的 主要 概念 :生成 函数 。 这 些 
数学 材料 是 本 书 其 他 部 分 的 基础 ， 因 此 我 们 集中 于 核心 方法 的 描述 ， 而 不 专注 于 具体 的 应 用 ， 
不 过 有 时 也 会 从 算法 性 质 中 涉及 一 些 例子 。 

在 定义 了 基本 术语 “常规 ”生成 函数 与 “指数 型 ”生成 函数 之 后 ， 我 们 将 叙述 生成 函数 
在 解 递 推 关系 式 方 面 的 应 用 ， 其 中 包括 对 必要 的 数学 工具 的 讨论 。 对 于 常规 与 指数 型 两 类 生 
成 函数 ， 我 们 将 考查 许多 在 实际 应 用 中 产生 的 基本 函数 ， 讨 论 它们 的 性 质 和 基本 操作 方式 。 
我 们 将 讨论 大 量 的 例子 ， 其 中 包括 在 第 一 章 介绍 的 采用 三 数 中 值 快速 排序 递归 的 实现 细节 。 

然后 我 们 将 详细 讨论 生成 函数 在 组 合 结构 计数 中 可 能 发 挥 的 作用 ， 其 中 最 重要 的 是 关于 
“符号 方法 ”的 介绍 ， 这 种 方法 能 使 我 们 探讨 所 分 析 的 对 象 和 相应 的 生成 函数 之 间 的 关系 。 为 
了 进一步 阐述 相关 的 概念 ， 从 第 5 章 到 第 8 章 ， 我 们 考查 若干 例子 ， 包 括 熟 知 的 计数 二 又 树 的 
例子 。 在 这 前 后 ， 我 们 还 将 考查 拉 格 朗 日 反 演 定理 ， 这 是 对 符号 方法 在 解决 具有 递归 结构 问 
题 方面 的 一 个 很 好 的 补充 。 

一 般 地 ， 我 们 所 关心 的 不 仅 是 组 合 结构 的 计数 问题 ， 而 且 还 要 分 析 它 们 的 性 质 。 为 此 ， 
我 们 还 要 考查 如 何 使 用 “ 双 变 量 ”生成 函数 以 及 如 何 与 “概率 ”生成 函数 的 使 用 相 联系 。 

在 本 章 的 最 后 ， 将 讨论 各 种 特殊 类 型 的 生成 函数 ， 它 们 出 现在 算法 分 析 的 各 种 应 用 之 中 。 

先前 各 章 的 目的 是 让 读者 充分 认识 到 递归 在 算法 分 析 中 所 发 挥 的 关键 性 的 作用 。 本 章 的 
目标 之 一 是 让 读者 确信 : 不 仅 许 多 基本 的 递归 问题 可 以 很 容易 地 用 生成 函数 求解 ， 而 且 在 一 
些 试图 回避 递归 的 问题 中 ， 生 成 函数 仍 能 发 挥 重 要 的 作用 。 生 成 函数 不 仅 是 求解 递归 和 计算 
和 矩 的 必需 的 技巧 性 很 强 的 工具 ， 而 且 它 在 以 下 两 者 之 间 建 立 了 一 种 自然 的 联系 : 我 们 所 研究 
的 算法 对 象 和 探讨 其 性 质 所 必需 的 解析 方法 。 生 成 函数 可 提供 两 方面 的 服务 : 既 可 作为 组 合 
学 工具 进行 计数 的 研究 ， 又 可 作为 解析 工具 对 所 感 兴趣 的 量 做 精确 的 估计 。 

在 本 书 中 我 们 通过 使 用 生成 函数 直接 得 到 组 合 学 性 质 的 一 些 例子 进行 阐述 ， 这 些 组 合 学 
性 质 过 于 复杂 有 时 不 能 方便 地 用 递归 描述 ， 因 此 本 书 所 介绍 的 方法 只 是 一 个 起 点 ， 关 于 更 一 
般 的 组 合 技巧 的 研究 请 参看 文献 [3]。 

鉴于 生成 函数 对 于 全 书 内 容 的 核心 作用 ， 我 们 给 出 了 在 对 生成 函数 进行 操作 时 所 涉及 的 
基本 性 质 和 常用 技巧 ， 并 对 本 章 大 部 分 最 重要 的 生成 函数 提供 了 一 个 清单 供 读者 参考 。 我 们 
介绍 了 来 自 组 合 学 和 算法 分 析 领 域 的 大 量 的 内 容 充实 的 材料 ， 尽 管 对 每 个 特定 的 论题 我 们 只 
作 了 较为 简明 的 处 理 。 关 于 这 些 论题 的 更 完全 的 讨论 可 以 在 第 5 章 到 第 8 章 的 各 种 应 用 中 找到 ， 
在 本 章 最 后 给 出 了 其 他 的 参考 文献 目录 ， 其 中 主要 是 [1]、[4]、[5] 和 {17]。 


3.1 常规 生成 函数 


在 上 一 章 中 我 们 看 到 ， 算 法 分 析 的 目的 是 要 导出 序列 so，a a ，… 中 请 项 的 值 的 具体 表 
达 式 ， 这 个 序列 是 度量 某 种 性 能 的 参数 。 本 章 我 们 将 看 到 用 一 个 单一 的 数学 对 象 表示 整个 序 
列 的 好 处 。 
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定义 给 定 序列 ao， a, a), 





， 我 们 称 下 面 的 函数 








为 该 序列 的 常规 生成 函数 (OGF)， 用 记号 [z 避 A(z) 表 示 系 数 ai。 
表 3-1 基本 的 常规 生成 函数 
L111, Le 1 - 22" 
1-z A 
0,1,2,3,4,.…, Ny = Sanz" 
a-z% » 
N 2 
0,0,1,3,6,10--( J Z a z" 
2 A-2) WA 2 
N M 
0, m OL ML Je oy (Mn 
M a-a" Ku M 
M M wee ( ,Ml (1+z)" = 2 
"(> yp pA N 
M+2\ /M+3 
Lust( + J + ) ty (NM nn 
2 3 (2 AA ON 
1,0,1,0,-++,1,0 1 lye 
1-2’ 2 
Lee, pee", 1 -Be 
l-cz o 
1,1, — L. a e- z“ 
PILA NI NI 
nate SZ 
0.1 工 工 工 . L... l-z ÈN 
234 N 1 1 
1 1 1 ae Ina = YS Hz” 
O14 ole ota Hy l-z i-a i N 
z N 
11) (1.1.1 一 一 mn 一 一 = YNH, -Dz 
0,0,1,3(2 a5 li... ni D> y 
2*3 427374) (-2) l-z f% 


在 表 3-1 中 ， 给 出 了 一 些 基本 生成 函数 及 所 对 应 的 序列 。 下 面 将 介绍 如 何 推 导 这 些 生成 函 


数 ， 以 及 对 这 些 函 数 的 各 种 处 理 方式 。 表 3-1 中 给 出 的 常规 生成 函数 是 最 基本 的 一 些 函 数 ， 它 
们 在 算法 分 析 中 经 常会 出 现 。 每 个 序列 都 有 多 种 表述 方式 (例如 用 简单 的 递 推 关系 )， 但 下 面 
将 看 到 ， 直 接 用 生成 函数 表示 它们 会 具有 显著 的 优势 。 

定义 中 的 和 可 能 收敛 ， 也 可 能 不 收敛 ,我们 暂且 忽略 收敛 性 的 问题 ， 这 里 有 两 个 理由 : 
首先 ， 我们 在 这 些 生 成 函数 上 所 做 的 操作 都 是 关于 考级 数 形式 上 的 规范 操作 ， 即 使 是 在 收敛 
性 不 存在 的 情况 下 。 其 次， 在 我 们 的 分 析 中 所 产生 的 序列 通常 收敛 性 都 是 有 保证 的 ， 即 至 少 
对 某 个 充分 小 的 xz， 级 数 是 收敛 的 。 在 算法 分 析 的 大 量 应 用 中 ， 在 典型 分 析 的 第 一 部 分 ， 我 们 
通过 细致 地 对 照 可 以 探讨 宪 级 数 与 算法 之 间 的 形式 上 的 关系 ， 从 而 导出 生成 函数 的 显 式 公式 。 
在 典型 分 析 的 第 二 部 分 ， 我 们 可 以 得 到 生成 函数 详细 的 解析 性 质 (这 时 收敛 性 将 发 挥 重要 的 
作用 )， 从 而 导出 描述 算法 基本 性 质 的 显 式 公 式 。 

fA E E RR RAC) = Zoon MPO = 了 .>obxz*， 它 们 分 别 表示 序列 {ao，al，a2，… 
ars “…，} 和 {bo, bis b,,，…， …，}， 我 们 可 以 通过 一 些 简 单 的 变换 得 到 其 他 一 此 应 
列 的 生成 函数 ， MOAT ARERR Hea. 关于 应 用 这 些 操作 的 例子 可 通过 表 3-1 
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中 所 列 出 各 项 之 间 的 关系 找到 。 


定理 3.1(OGF 操 作 ) ”如 果 两 个 序列 qo, al, a3, 0, ap ebo, bi, ba, ,Db 
分 别 由 常规 生成 函数 4(z) = Zra foB) = Eob AT ， 那 么 表 3-2 给 出 的 各 种 运 
算 所 产生 的 常规 生成 函数 分 别 表示 指定 的 序列 。 特 别 地 ， 

A(z) +B(z) 是 表示 ao + bo, a, + bi, a, + by, … 的 OGF 


zA(z) 是 表示 0, ao, 4), az, … 的 DGF 
A'(z) 是 表示 al 2a), 3a,, vt 的 OGF 


A(z)B(z) 是 表示 aobo, aop + aibo, doba + a,b, + abo, = HJ OGF 


证 明 上述 大 多 数 公式 都 是 初等 的 表述 ， 直 接 观察 便 可 以 验证 。 对 于 卷 积 〈《convolntion ) 
运算 (以 及 作为 特例 的 部 分 和 ) 容易 通过 按 同 次 客 求 和 导出 


A(z)B(z) = > az’ > bz’ 
Fo 了 20 


= i+ j 
= 之 ob 
i,j 20 
n 
ASONO LEK n 


在 这 个 公式 中 ， 取 B(z) = 1/(1 - z)， 就 得 到 部 分 和 运算 。 以 后 我 们 将 看 到 ， 卷 积 运算 在 生 


成 函数 的 运算 中 起 着 特殊 的 作用 。 a 
推论 表示 调和 数 的 常规 生成 函数 为 
Hye’ = mn 
1 l-z 1-z 


证 明 MIO- z) 出 发 ( 它 是 表示 1, 1, 1,… 的 OGF) ,积分 (得 到 表示 0, 1, 1/2, 1/3, -- 
1/k,… 的 OGF) ERANA - z) 即 可 。 类 似 的 例子 可 在 表 3-1 所 列 出 各 项 之 间 的 关系 中 
找到 。 a 

表 3-2 ”关于 常规 生成 函数 的 运算 





A(z) = Saz” Gig + By E R 
n> 0 
B(z)= X 6,2" Dy, By bar bpo 
BE 
zA) = X anz” 0, dy di," Apat 
nol 
左 移 
A(z)- 
(2)~ My = Fanz” A s as Ag Apa’ 
z n> 0 
下 标 乘 (微分 ) 
A(z) = DS n+ Dayz” a ,24 , (n+ la, 5° 
n20 
下 标 除 (积分 ) 
a, a, a a 
A(t)dt = X z" $i fa... fra.. 
faw yn 0, ap, ana 
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( 续 ) 
比例 因子 
A(Az) = dane ay Ad Mae Nays, 
ned 
相 加 
Az) + Be) = Y (a, + be dy + boss Gn + Dyas 
ned 
差分 
(1 = Z)A(z) = ao + AG -a,_,)z" Ay yy -aa yy ses 
nal 
卷 积 
A(z)B(z) = > Jaba) agbo, aibo + abys Jaba 
n> 0\0 <n 0 on 
部 分 和 


A 
得 -3| Sale aatar Fan 
l-z Kho Kn o€%en 


对 于 还 不 熟悉 生成 国 数 的 读者 ， 我 们 建议 做 以 下 习题 ， 以 便 掌握 应 用 这 些 变 换 的 基本 





习题 3.1 求 以 下 每 个 序列 的 OGF 
Qh 全 2 "hoo Hoi (eho. 
习题 3.2 求 以 下 每 个 OGF 对 应 的 [z*] 
1 1 
(1-3z) (1 -2z) 
习题 3.3 将 表示 调和 数 的 OGF 微 分 ， 以 验证 表 3-1 的 最 后 一 行 。 
习题 3.4 证 明 


dz ， 
l-z 


H, = (N+ D(H pa -D 
ISKS AN 


习题 3.5 通过 对 下 式 用 两 种 不 同 的 方式 分 解 因子 〈 然 后 做 相应 的 卷 积 运算 )， 


z” 


— |n 
a-z)" 1-z 


证 明 调 和 数 与 二 项 式 系 数 所 满足 的 一 般 的 恒等式 。 


习题 3.6 求 对 应 于 以 下 序列 的 OGF 





(提示 : 使 用 部 分 分 式 ) 


习题 3.7 求 对 应 于 以 下 序列 的 OGF 





Hille 
习题 3.8 求 以 下 每 个 OGF 对 应 的 [z] 
1 /, 1)" /工人 
EL 


我 们 用 记号 
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H? 1+ tht 4 
2 3 N 


表示 上述 展 开 式 生成 的 “广义 调和 数 ”。 

对 于 我 们 在 算法 分 析 中 遇 到 的 许多 序列 ， 用 上 述 的 初等 运算 就 是 够 了 ， 尽 管 在 许多 算法 
中 还 需要 更 先进 的 工具 。 由 此 出 发 可 以 看 出 ， 显 然 算 法 分 析 是 围绕 着 两 个 问题 展开 的 : 一 方 
面 要 确定 一 个 显 式 公式 作为 给 定 的 序列 的 生成 函数 ; 反 过 来 还 要 利用 生成 函数 的 表达 式 确定 
表示 序列 中 元 素 的 精确 公式 。 在 后 面 以 及 第 5 章 ~ 第 8 章 中 ， 我 们 将 看 到 许多 有 关 的 例子 。 

从 形式 上 讲 ， 我 们 可 以 用 任何 一 组 核 函 数 wi(z) 来 定义 “生成 函数 ” 


A(z) = yan 
它 封装 了 序列 ao, ay, a, …。 尽 管 本 书 几 乎 只 考虑 核 函 数 z 与 zk! ( 详 见 下 节 )， 但 在 算法 分 
析 中 其 他 关 型 的 核 卫 数 确实 也 会 偶尔 使 用 。 我 们 将 在 本 章 最 后 简短 地 对 它们 进行 讨论 。 
3.2 指数 生成 函数 
对 于 某 些 序列 ， 使 用 带 有 规范 化 因子 的 生成 函数 将 更 方便 一 些 。 
定义 给 定 序 列 ao， Qi, Gy, °°, Ay = 我 们 称 下 面 的 函数 


k 

Z 

AG) = Day 
Sk 


为 该 序列 的 指数 生成 函数 (EGF)。 我 们 用 记号 局 (ADAH A a, 
表 3-3 基本 的 指数 生成 函数 














N 

1,1,1,1, Le ee= SR 
a N! 
N 

0,1,2,3,4,…, Ny 2 

(N-D! 

0,0,1,3,6.100--() Je Jog 5 

2 2 2 > (N —2)! 

0, 0, Mtl ™ L Mee zt 
ve FERES GAA IEIS L -—-Ņ 2 
co M M! Mio, M)! 

1,0,1,0,---,1,0,+ le +- a Len" Dz“ 

Lee, pe eyo chet 

0.12.4. 1 pe di -1_ 

2 3 N+l z ,N+D! 
1 
1,2,6,24, =, NI L gpi 
l-z 0 N! 





关于 {as} 的 指数 型 生成 函数 (EGF) 与 关于 {axwk!} 的 常规 生成 函数 相 比 ， 并 没有 新 的 内 容 ， 
但 它 在 组 合 学 和 算法 分 析 中 基于 一 些 特定 的 简单 原因 而 产生 。 假 定 系数 ws 表示 与 一 种 具有 K 项 
结构 相关 的 计数 ， 进 一 步 假 定 k 项 已 被 “标记 ”， 使 得 每 一 项 都 有 一 个 不 同 的 标记 。 在 某 些 场 
合 下 ， 这 些 标记 是 有 关联 的 (这 时 用 EGF 比 较 合 适 )， 而 在 另外 一 些 情况 下 各 标记 互 不 关联 
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(这 时 用 OGF 比 较 合 适 )。 因 子 k! 表 示 这 些 被 标记 项 的 排列 的 总 数 ， 如 果 他 们 没有 被 标记 就 不 
能 相互 区 分 。 我 们 在 3.9 节 将 详细 地 讨论 这 个 问题 ， 届 时 我 们 将 看 到 用 于 相关 的 生成 函数 和 组 
合 学 对 象 的 “符号 方法 ”。 这 里 ， 我 们 给 出 这 种 解释 就 是 用 以 验证 我 们 将 要 详细 介绍 的 关于 
EGF 的 性 质 ， 这 些 性 质 都 进行 过 深入 的 研究 ， 因 为 它们 有 广泛 的 应 用 背景 。 

表 3-3 给 出 了 若干 个 本 书后 面 将 要 用 到 的 基本 指数 型 生成 函数 ， 表 3-4 给 出 了 关于 EGF 的 一 
些 基 本 的 运算 。 注 意 对 于 EGF 的 左 移 (RAB) 运算 与 关于 OGF 的 下 标 乘 (RR) 运算 是 相 
同 的 (参看 表 3-2)， 反 之 亦 然 。 如 同 OGF， 在 表 3-4 列 出 了 对 于 表 3-3 中 的 基本 函数 所 进行 的 基 
本 运算 的 应 用 ， 这 些 运算 产生 了 大 量 在 实际 应 用 中 涉及 到 的 EGF， 读 者 通过 后 面 的 习题 将 会 
熟悉 这 些 函 数 。 与 OGF 一 样 ， 我 们 很 容易 确立 这 些 基本 运算 的 有 效 性 。 

` 定理 3.2 (对 EGF 的 操作 ) 如 果 两 个 序列 ao， ajs a2, s Gks efebo, by, by, 00, 

已 ，… 分 别 由 指数 生成 函数 4(z) = ZiyoaizWkI 和 B(z) = ZiyopizuK! 表 示 ， 那 么 表 3-4 给 

出 的 各 种 运算 所 产生 的 指数 生成 函数 分 别 表示 指定 的 序列 。 特 别 地 ， 

A(z) + B(z) 是 表示 ao + bpa +b, a +b, = t EGF 


A'(z) 是 表示 ai, a, 43,… 的 EGF 
zA(z) 是 表示 0, a, 2a,, 3a3,… 的 EGF 
A(z)B(z) 是 表示 aobu, aob, + aibo, aob, + 2a,b, + 4bo，… 的 EGF 


[39] 证 明 ”如同 定理 3.1， 这 些 运算 都 是 初等 的 ， 直 接 观察 便 可 以 验证 ， 而 对 于 二 项 卷 积 ， 也 
很 容易 用 OGF 的 卷 积 来 验证 : 





ADBD = DT Y et ae 


n200 <n K! (n-k)! 


> 
= Gy On -k T 
>a k n! a 


R3-4 ”关于 指数 型 生成 函数 的 运算 


A(z) = a 二 A, das ARER 
Kh n 
Ba) = Db Bos 局 有 
SH n 
AB (积分 ) 
z" 
= £ 044g aa 
Í A(t)dt a — oa; ， 
左 移 (微分 ) 
NO- Zou 而 Gy, By 03 s Ap 
< noo . 
下 标 乘 z 
zA(z)= % na,_,— 0, dy, 2a, ,3a,-++,na,_,°°"5 
4 n! 
下 标 除 
a, z" a, a a 
A(z)- A(0))/z= X = pa B... Sel, 
(A AO) inti n m3 al 
相 加 
AD+ BE) = F(a, tb) iy + barsa, + By y's 
ns n: 


e e Ss 
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( 续 ) 

差分 
A'(z)- A(z) = > om -a 
ned e 


Gy ~ 8g By = 01r s Angy n°, 


二 项 卷 积 


n 
n z” Gobo, abo + abiye, ( jsp 
一 2 k 
A(z)B(z) 中 (ne m Xen 
二 项 和 Mo PET > (Flee 
eao- S| 了 (a) 5 OLES n 
nz0\0 San 





习题 3.9 求 以 下 每 个 序列 的 EGF 
2h >0 {k2*"}, 50 Kh > 2 
习题 3.10 分 别 求 关 于 序列 1，3，5，7，…， 与 0，2，4，6，…， 的 EGF。 
习题 3.11 求 以 下 每 个 EGF 对 应 的 N![z”]A(z) 
1 


1 (mY ae 
A(z) = ——In——,, A(z) =| In—} , A(z) = 
@) l-z nilz (2) \ "1-z) (We 


习题 3.12 证 明 
N![z* Je? foie = Hy 
0 


(提示 : 对 于 EGF A(z) = Ew>oHwz"/N! 构 造 一 个 一 阶 常 微分 方程 )。 

究竟 是 使 用 OGF 还 是 使 用 EGF 能 够 得 到 一 个 问题 最 方便 的 解 ， 并 不 总 是 很 明显 的 。 有 时 一 
个 方式 可 能 导致 简单 的 求解 而 另 一 个 将 需要 使 用 很 困难 的 技巧 ， 有 时 两 个 都 很 好 用 。 而 对 于 
今后 我 们 所 遇 到 的 许多 组 合 学 和 算法 分 析 中 的 问题 ， 使 用 OGF 还 是 使 用 EGF， 根 据 问题 的 结构 
往往 还 是 容易 选择 的 。 此 外 ， 从 解析 函数 的 角度 ， 入 们 往往 更 感 兴趣 的 是 :是否 可 以 将 表示 
一 个 序列 的 OGF 自 动 地 转换 成 表示 同一 序列 的 EGF， 或 者 反 过 来 ? (答案 是 肯定 的 ， 只 要 通 
过 拉 普 拉 斯 变换 ， 见 习题 3.14.。) 本 书 中 ， 将 讨论 许多 涉及 OGF 和 EGF 两 类 应 用 的 例子 。 

习题 3.13 给 定 序 列 {ai} 的 EGF A(z)， 求 以 下 序列 的 EGF: 


L2) 


习题 3.14 ARATI {a}HEGF A(z)， 证 明 如 果 以 下 积分 存在 ， 那 么 该 序列 的 OGF 就 
可 以 由 以 下 积分 给 出 


fAtenea 
对 表 3-1 和 表 3-3 中 的 序列 验证 这 个 结论 。 
3.3 利用 生成 函数 求解 递归 


下 面 ， 我 们 考查 生成 函数 在 求解 递归 中 所 能 发 挥 的 作用 。 当 描述 算法 的 某 些 基本 性 质 的 
递 推 关 系 导出 以 后 ， 作 为 算法 分 析 的 经 典 处 理 的 第 二 步 ， 使 用 生成 函数 求解 这 个 递归 。 一 些 
读者 可 能 已 经 熟悉 这 些 处 理 方法 ， 因 为 它 已 被 广泛 地 使 用 并 且 具 有 一 些 最 基本 的 特征 。 不 过 ， 
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我 们 后 面 会 看 到 常常 能 够 避免 递归 而 直接 用 生成 函数 进行 处 理 。 

生成 函数 提供 了 用 于 求解 许多 递 推 关 系 的 很 机 械 的 方法 。 给 定 一 个 表示 某 序列 {fa},>o 的 
递归 ， 通 常 按 以 下 步 又 进行 求解 : 

。 在 递 推 式 的 两 边 乘 以 x*， 然 后 关于 n 求 和 。 

。 处 理 所 得 的 各 个 和 ， 导 出 一 个 关于 OGF 的 函数 方程 。 

。 解 这 个 函数 方程 ， 导 出 OGF 的 显 式 公式 。 

。 将 OGF 展 开 为 一 个 震级 数 ， 从 而 得 到 系数 表达 式 (这 些 系数 就 是 原来 的 序列 中 的 元 素 )。 

同样 的 方法 也 适用 于 EGF， 只 是 两 边 乘 以 z"/n!， 然 后 在 第 一 步 关于 n 求 和 。 究 竟 使 用 OGF 
还 是 EGF 更 方便 ， 依 赖 于 递归 。 

这 种 方法 的 一 个 最 直接 的 例子 是 求解 常 系数 线性 递归 (参见 第 2 章 )。 

平凡 线性 递归 。 解 下 述 递 归 

a, =a,-,+1 (对 所 有 的 n> 1, a) = 0) 

首先 ， 两 边 乘 以 xz， 然后 关于 n 求 和 ， 得 到 : 


Z 
nəl l-z 


由 于 生成 函数 4(z) = ,oa,z*， 上 述 方程 可 表示 为 
A(z) = zA(z) + 二 
或 4(z) = zl - 2), Fea, = n 就 是 所 要 求 的 。 
简单 指数 型 递归 9。 为 了 解 下 述 递 归 ; 
a, = 2a -1+1 (对 所 有 的 n> 1, ay = 1) 
我 们 按照 上 述 方法 处 理 ， 发 现 相应 的 生成 函数 4(z) = Zraz" E 
A(z) -1 = 2zA(z) + —— 
1-z 


由 此 可 导出 


1 
AQ) = Gad 
由 表 3-1 可 知 ，1(1-2z) 是 关于 序列 {2”} 的 生成 函数 ， 再 由 表 3-2 可 知 ， 乘 以 1/(1 - z) 后 所 对 应 的 
部 分 和 为 
a, = 24 =2™! -1 


n 
0 <n 


部 分 分 式 。 求 解 上 述 问题 的 系数 还 有 一 种 方法 ， 使 用 A(z) 的 部 分 分 式 展开 式 ， 这 也 是 为 了 
解决 更 困难 的 问题 做 准备 。 利 用 分 母 中 的 因子 ， 生 成 函数 可 表示 为 两 个 分 式 之 和 : 
1 Co Cl 


Cd 1-22 l-z 
其 中 co，cj 是 两 个 待定 常数 ， 交 叉 相 乘 可 以 看 出 ， 这 两 个 常数 满足 方程 组 


Cotc,=1 





—Cy — 2c, =9 


由 此 可 得 co= 2, ci= -1。 于 是 ， 





tiat o 





n — $ i z _1 n+l 
EGR E ANT- S i)? 7! 
这 一 技巧 可 用 于 任何 分 母 为 多 项 式 的 情形 ， 从 而 可 作为 下 面 要 讨论 的 解 高 阶 线性 递归 的 一 般 
方法 。 
斐 波 那 契 数列 。 关 于 斐 波 那 契 数列 
F,=F,_,+F,-» (n>1, Fy=0, F,=1) 
AE BX eR F(z) = Leo ok he 
F(z) = zF(z) + 2F(z) +z 
由 此 可 导出 
-二 -点 | _1 1) 
ræ- Vs\i-a% 1-&) 
利用 部 分 分 式 ， 以 及 1 - z - z 可 分 解 因 子 为 (1 - z 内 (1 - A), HH, 
p- eV be 5 
它们 是 1 - z- z 的 根 的 相反 数 。 TEAR 4 可 以 直接 得 到 
1 n an 
É -70 -让 


当然 ， 这 与 第 2 章 已 经 给 出 的 推导 紧密 相关 ， 我 们 下 面 以 一 般 项 的 形式 考查 这 种 关系 。 

习题 3.15 求 斐 波 那 契 数 列 的 EGF。 

高 阶 线性 递归 。 生 成 函数 可 以 使 第 2 章 所 介绍 的 “因子 分 解 ”的 过 程 更 容易 实现 ， 这 一 过 
程 用 于 求解 常 系数 高 阶 线性 递归 。 递 归 的 因子 分 解 对 应 于 在 生成 函数 的 分 母 中 出 现 的 多 项 式 
的 因子 分 解 ， 这 可 导致 一 个 部 分 分 式 从 而 得 到 一 个 显 式 的 解 。 例 如 ， 递 归 





a, = Sa — 64,-. (对 所 有 的 n>1,ao=0,ai= 1) 
意味 着 生成 函数 a(z) = n08" A 
z 1 1 
a(z) = — 4 = —____ = —_- 


1-S$z+6z* (1-3z)(1-2z) 1-3z 1-2z 

于 是 必 有 a = 3" - 2", 

习题 3.16 利用 生成 函数 解 以 下 递归 

a,=-a,-ı +6a,-2, # Pn>1 Ha =0,a = 1; 

a, = lla,_3— 6a,_,, $ ¥n>2Ha,=0,a,=a,= l; 

a, = 3a, -17 4a, .2, HE 'Pn>1Ha,=0,a,=1; 

Qn = An-1 — An-2, HYP n> 1 Ha, =0,a,= 1. 

一 般 地 ， 生 成 函数 的 显 式 表 达 式 是 两 个 多 项 式 之 比 ， 按 照 分 母 多 项 式 的 根 所 做 的 部 分 分 
式 展开 式 将 导致 关于 这 些 根 的 吞 的 一 个 表达 式 。 按 这 种 思路 ， 做 更 严格 的 推导 ， 就 可 以 得 到 
定理 2.2 的 证 明 。 


定理 3.3 (表示 线性 递归 的 OGF) 如 果 a, 满 足 递归 : 


Gn = Xian- 1 + X2G,-2+ "+ XG, 





0 EE 


#Fn>t, MER BRalz) = Ena AA R ARa) = f(z)/8(z)， 其 中 分 母 多 项 式 是 
8(Z) =l -aaz aaz 一 … 一 XX， 而 分 子 多 项 式 由 初 值 40, ara 1 确定 。 


证 明 ”证 明 按 照 本 节 开 始 所 介绍 的 解 递归 的 一 般 范例 ， 在 递 推 式 的 两 边 乘 以 z*"， 然 后 关于 
n> 1 求 和 得 到 
2 anz" =X, Yan" tet x, Do 


左边 可 表示 为 用 a(z) 减 去 一 个 初 值 的 生成 多 项 式 ， 右 边 第 一 项 可 表示 为 用 za(z) 减 去 一 个 多 项 式 
等 等 。 于 是 a(z) 满 足 
a(z) — Mo(z) = (xiza(z) — u,(Z)) + + (xz'a(z) — 4,(2)) 

其 中 ’ 多 项 式 uo(z)， MI(Z)，…， u.(z) 至 多 是 it 一 1 次 的 ， 其 系数 仅 依赖 于 初 值 ao， dis s Ai- 1 这 个 
函数 方程 是 线性 的 。 

求解 关于 a(z) 和 的 函数 方程 ， 可 得 显 式 形式 a(z) = f(z)/8(z)， 其 中 g(z) 具 有 前 面 已 提 到 的 形 
K, m 

f (2) =u (Z) — u (2) — ++ - u, (z) 

仅 依赖 于 递归 的 初 值 ， 且 次 数 小 于 1。 | 

由 上 述 的 一 般 形 式 可 直接 导出 f(z) 关 于 对 初始 条 件 依赖 关系 的 公式 ， 即 由 f(z) = az)8(z) 及 
f 的 次 数 小 于 :， 因 此 一 定 有 

f(D=80) Sar (modz') 


这 就 给 出 了 计算 f(z) 的 系数 的 快捷 方式 ,许多 递归 利用 它 可 以 快速 准确 地 求解 。 
简单 的 例子 。 解 下 面 的 递归 
a, = 24,- 1+a 2 一 2a,-3 (n>2,a)=0,a,=a,= 1) 

先 计算 : 

g(z) =1-22-2? +22° =(1- Zz)(l+2z)( - 22) 
然后 利用 初始 条 件 ， 可 得 

Fa=(z+z2)-2z-z2+2z) (modz ) 

=(z-z°)=2(l-z) 

由 此 可 得 


fM_ z U2 L1) 
a(2) a(z) (1+ z)(1—2z) 3\1-2z 1+z/ 


FÆ, A a, -02"-(-D7)。 
4. ELEK, AFI- z 被 约 去 了 ， 于 是 在 解 中 没有 出 现 常数 项 。 考 虑 同样 的 
递 轨 ， 但 我 们 采用 不 同 的 初始 条 件 
a, =2a,1 + 4,2 一 20 3 (n>2, a, =a, =a, =!) 


函数 g(z) 与 上 面相 同 ， 但 是 
f(z =(+z4+ 27-22-27 +227) (modz’) 
=(1-z-227) =(1-2z)(1+2z) 
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在 这 种 情况 下 , 我 们 约 去 了 一 个 平凡 解 a(z) = 了 (z)/g(z) = 1(1 - 2), 因而 对 所 有 n> 0,88 a, = 1. 
通过 导出 约 掉 因子 的 方式 ， 初 始 条 件 可 能 对 解 的 增长 率 产生 显著 的 影响 。 
我 们 约定 ，8(z) 分 解 因子 后 具有 以 下 的 形式 
a(z) = (1- Bz) (l - B,z):--- B,z) 


这 种 约定 显得 更 自然 一 些 。 如 果 多 项 式 8(z) 满 足 8(0) = 1 ( 当 g(z) 像 上 面 那 样 由 递归 导出 时 ， 通 

常 是 这 样 的 )， 则 它 的 所 有 根 的 积 是 1， 而 上 式 中 的 8,，p:，… 有 ,恰好 是 各 根 的 倒数 。 如 果 4(z) 

是 定理 2.2 中 的 “特征 多 项 式 ”， 便 可 得 到 g(z) = zg(1/z)，、 于 是 各 个 B 恰 好 是 特征 多 项 式 的 根 。 
复 根 。 上 面 的 所 有 处 理 对 复 根 都 是 有 效 的 。 我 们 通过 下 面 的 递归 给 以 说 明 








a, =2a,_1— 4,-2+2a,_3 (n>2,a)=1,4a,=0,a,=-1) 

由 此 可 得 

g(z)=1-2z4+2? -2z =(1+z7)(1-2z) 
于 是 

f(=(-z*)-2z) (modz*)=(1-2z) 
因此 有 

f@Q_ 1 ty dt 
ar omnes 2\1-iz 1+iz) [97] 


最 后 可 得 on+(-D) 。 由 此 容易 看 到 ， 当 n 是 奇数 时 ，a, 是 0。 当 nn 是 4 的 倍数 时 ，a, 是 1。 


当 n 是 偶数 但 不 是 4 的 倍数 时 ，as 是 -1 (这 个 结果 容易 从 a(z) = 1(1 + 2°) 直接 导出 )。 对 于 初始 
条 件 ao= 1, ai = 2, da = 3， 可 得 f(z) = 1, 于 是 解 按 2" 的 速率 增长 ， 而 周期 变化 的 项 是 由 复 根 引 
起 的 。 


多重 根 。 当 涉及 多 重 根 时 ， 我 们 用 表 3-1 第 2、3 行 给 出 的 展 式 完成 相应 的 推导 。 例 如 ， 给 
定 递归 


a, =Sa 一 8a + 44,_5 (n>2, a, =0, a,=1, a, =4) 


由 此 可 得 
8g(zJ=1-Sz+8z2 -4z3 =(1-z)1-2z) 


于 是 
f(z) =(z+4z2)G-5Sz+8z2 -423)  (modz*)= z(1-z) 


因此 有 a(z) = z/(1 - 2z)2， 从 而 由 表 3-1 可 得 as= n2". 
由 这 些 例 子 可 归纳 出 精确 求解 线性 递归 的 一 般 的 直接 方法 : 
。 由 递归 导出 8(z)。 
。 由 g(z) 和 初始 条 件 计算 f(z)。 
。 削 去 f(z)/8(z) 中 的 公共 因子 。 
。 利 用 部 分 分 式 将 f(z)/g(z) 表 示 为 形 如 (1 - bz) 的 项 的 线性 组 合 。 
。 将 每 个 部 分 分 式 按 以 下 公式 展开 


_, {n+j-h,, 
[2"10. - Bz)? -( ， js 
j-1 
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实际 上 ， 这 个 处 理 过 程 可 以 给 出 定理 2.2 的 构造 性 的 证 明 。 
习题 3.17 和 解 以 下 递归 


a, =5a,_, — 8a,_, + 4a,_, (n>2, a, =1, a, =2, a, =4) 
习题 3.18 解 以 下 递归 
a, = 20,5 一 0 4 (n>4, a, =a, =0, a, =a, =1) 
习题 3.19 解 以 下 递归 
a, = 6a,_,-12a,_, +18a,_, -27a,_, (n>4, a, =0, a, =a, =a, =1) 


习题 3.20 解 以 下 递归 
a, =3a,_,-34,,+4,, (n>2, aq =a,=0, a, =1) 


然后 再 将 初始 条 件 al 改 为 a1= !， 求 解 同一 个 递归 。 
习题 3.21 解 以 下 递归 


m= È (Dans (n> t, a=" =a, =0, a, =1) 
用 OGF 求 解 Quicksort 算 法 的 递 轨 。 当 递归 的 系数 是 下 标 n 的 多 项 式 时 ， 则 约束 生成 函数 


的 隐 含 关系 是 一 个 微分 方程 。 例 如 ， 我 们 回忆 第 1 章 介绍 的 描述 快速 排序 算法 所 使 用 的 比较 次 
数 的 基本 递归 


NC =N(N+1)+2 YC (N >1, Co =0) (3-1) 
I<k <N 
定义 生成 函数 
C(z)= Y Cz“ - 
z DA (3-2) 


Fil FA AY a Sy ATs ETUE DAE BR. ARAR (3-1) 的 两 边 ， 然 后 
关于 N 求 和 ， 得 到 
D NC" = DMN +D" +2 之 Cr- z“ 


现在 ， 我们 可 以 直接 求 出 每 一 项 。 上 式 的 左边 是 zC'(z) (对 式 (3-2) 两 边 求 导 ， 再 乘 以 z)， 石 
边 的 第 一 项 是 2z/(1 - z)? ( 见 表 3-1)， 剩 下 的 一 项 是 个 二 重 求 和 ， 就 是 部 分 和 卷 积 〈 见 表 3-2)， 
结果 为 zC(z)/(1 - z)， 因 此 递归 对 应 于 一 个 关于 生成 函数 的 微分 方程 
2 422 (3-3) 
(l-zy l-z 
为 了 得 到 这 个 方程 的 解 ， 先 解 对 应 的 齐 次 方程 p(z) = 2p(z)/(1 - z)， 得 到 一 个 “积分 因子 ” 
plz) = VA - 2, FRA 
(A -z)’C(z))' = 1-2)’ C'(z) = 201- CO ， 

w) 

-z) 


C'(z)= 





=(1-z)2/C'()-2 
( yy '(z)- = 


积分 后 就 得 到 了 所 需要 的 结果 
Ce) = In (3-4) 
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定理 3.4 (Quicksort#3OGF) 人 的 Quicksort 算 法 所 用 平均 比较 次 数 为 


1 
Cy =i” Td y In 52N + Dn ~ D 
证 明 ”前 面 的 讨论 已 经 给 出 了 生成 函数 的 显 式 表达 式 ， 按 照 3.2 布 开始 部 分 给 出 的 用 OGF 
求解 递归 的 一 般 过 程 ， 这 已 经 完成 了 第 3 步 。 为 了 进一步 得 到 所 需要 的 系数 ， AROSE 
数 的 生成 函数 求 导 即 可 。 
利用 OGF 求 解 递归 的 方法 ， 尽 管 相 当 一 般 化 ， RERE RTEA RD IRI RANE A 
解 ， 在 第 2 章 最 后 给 出 的 各 种 例子 可 以 证 明 这 一 点 。 对 于 某 些 问 题 ， 可 能 导 不 出 一 个 具有 简单 
形式 的 和 ; 而 对 另 一 些 问 题 ， 要 想 导出 生成 函数 的 显 式 公 式 是 相当 困难 的 ， 还 有 一 些 问题 ， 
将 表达 式 展开 成 蜂 级 数 会 成 为 主要 的 障碍 。 但 是 ， 确 实 有 许多 递归 ， 初 看 起 来 难于 处 理 ， 但 
事实 上 是 可 以 用 生成 函数 求解 的 。 
习题 3.22 利用 生成 函数 解 以 下 递 汶 
na, =(n ~ 2)a,_,+2 (n?2,a,= 1) 


习题 3.23 [Greene 与 Knuth] 解 以 下 递归 


(n+ Da,,,= (n+ da, (n?0, a) = 1) 
习题 3.24 解 以 下 递归 
a,=n+1+É 之 ae- (n> 1, a =0) 
Nie Sn 


He, r=2-e5ta2+e, c€—-P)HERR. 
3.4 生成 函数 的 展开 


给 定 某 生 成 函数 的 显 式 函 数 形式 ， 我 们 希望 导出 求 得 相应 序列 的 一 般 的 方法 。 这 个 过 程 
称 为 生成 函数 的 “展开 ”， 也 就 是 将 一 个 紧 次 的 函数 形式 转换 为 一 个 无 穷 级 数 。 前 面 已 经 看 到 ， 
利用 表 3-1 到 3-4 所 给 出 的 基本 恒等式 和 变换 ， 通 过 代数 运算 可 以 处 理 许多 函数 。 那 么 ， 表 3-1 
和 表 3-3 中 的 最 基本 的 展开 式 又 是 怎样 得 到 的 呢 ? 

当 给 定 0 点 的 各 阶 导数 时 ， 利 用 泰勒 定理 可 以 给 出 函数 /(z) 的 展开 式 
LO) 2 LO» LO +, 

3! 4! 

因此 从 原则 上 讲 ， 通 过 计算 各 阶 导数 ， 可 以 求 得 给 定 的 生成 函数 所 对 应 的 序列 。 

指数 序列 。 由 于 e: 的 各 阶 导数 仍然 是 <， 泰 勒 定理 的 最 简单 的 应 用 就 是 建立 下 面 的 基本 展 
FR 


F(z) = FO) + f'O)z+ 


: Z z z 
e =1+Z+ 一 十 一 -十 一 -十 
2! 3! 4! 


几何 序列 。 由 表 3-1 可 知 ， 关 于 序列 {1,c, cz, 0 ，…} 的 生成 函数 是 (1 - cz 。 由 于 (1 ~ czy! 
的 kK 阶 导 数 是 Kic(1 - czy! 当 z = 0 时 就 是 flex， 于 是 泰勒 定理 验证 了 由 表 3-1 给 出 的 函数 的 下 述 
展开 式 是 正确 的 : 
1 kk 
1-cz = >! 7 


k>0 
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二 项 式 定理 。 函 数 (1+ zy 的 导数 是 
x(x — 1)(x— 2)" -— k+ 1) +27 
于 是 由 泰勒 定理 ， 可 得 二 项 式 定 理 的 广义 版 本 ， 即 著名 的 和 牛顿 公式 


(+2) = S) 
其 中 二 项 式 系数 定义 为 


G = x(x-1X(x-2)--(x-k+1)/k! 


这 里 一 个 重要 的 特例 是 











它 可 由 以 下 恒等式 导出 
lll 
[9- 2\ 2 Woe 3) 
k k! 

_ (-1)* 1-3-5---(2k-1) 2:4-6---2K 
2* k! 2*k! 

_ CY 2k 

Oog 四 


与 此 紧密 相关 的 一 个 展 式 在 算法 分 析 中 发 挥 核心 的 作用 ， 我 们 将 在 3.8 节 和 第 5 章 中 看 到 。 
习题 3.25 用 泰勒 定理 写 出 下 列 函数 展开 式 : | 
sin(z), 2, ze" 
习题 3.26 利用 泰勒 定理 验证 ， 表 达 式 (1 - az- bz -所 对 应 的 级 数 的 展开 式 系 数 满足 具 
有 常 系数 的 二 阶 线性 递归 。 
习题 3.27 利用 泰勒 定理 直接 验证 


H(z) = nl 


l-z l-z 
是 调和 数列 的 生成 函数 。 
习题 3.28 求 
z" in 
z Vl-z l-z 
的 表达 式 (提示 : 展开 (1 - z)“， 然 后 关于 a 求 导 )。 
习题 3.29 求 
of lm 
"hroz 四 Tz 《所 有 的 整数 1> 0) 
的 表达 式 。 


原则 上 ， 通 过 直接 应 用 泰勒 定理 ， 总 是 可 以 计算 生成 函数 的 系数 的 ， 但 具体 计算 过 程 可 
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能 过 于 复杂 而 无 法 实现 。 在 大 多 数 情况 下 ， 是 把 要 展开 的 生成 函数 分 解 成 若干 个 较 简 单 的 部 
分 ， 而 每 个 小 部 分 的 展开 式 是 熟知 的 。 前 面 的 一 些 例子 正 是 这 样 做 的 ， 其 中 包括 使 用 卷 积 来 
展开 二 项 系数 和 调和 数 的 生成 函数 ， 以 及 使 用 分 解 成 部 分 分 式 的 方法 来 展开 斐 波 那 契 数 的 生 
成 函数 。 的 确 ， 这 些 都 是 精 选 的 方法 ， 在 本 书 中 ， 我 们 将 广泛 地 使 用 这 些 方法 。 对 于 特定 的 
一 类 问题 ， 还 可 以 选用 其 他 工具 帮助 进行 处 理 ， 例 如 ， 在 本 章 的 后 面 将 详细 地 讨论 的 拉 格 其 
日 反 演 定理 就 是 其 中 的 一 种 。 

此 外 ， 对 于 某 些 问题 ， 试 图 通过 分 解 得 到 相应 的 展开 式 似 乎 是 做 不 到 的 。 对 这 些 问 题 ， 
与 其 寻求 展开 生成 函数 的 一 般 性 工具 ， 不 如 寻求 一 种 能 够 直接 得 到 关于 系数 的 更 简明 的 表示 
的 手段 ， 即 一 种 可 以 直接 导出 关于 系数 的 渐 近 估计 的 工具 ， 它 使 我 们 忽略 一 些 不 相干 的 细节 。 
尽管 这 种 一 般 的 方法 涉及 复 分 析 ， 其 内 容 超 出 了 本 书 的 范围 ， 但 我 们 所 使 用 的 求解 线性 递归 
的 部 分 分 式 展开 的 方法 正 是 出 自 同样 的 直觉 。 例 如 ， 由 对 应 于 斐 波 那 契 数列 的 部 分 分 式 展 式 ， 
可 直接 导出 当 z = 1/9 或 z = 1 ， 生 成 函数 F(z) 不 收 仇 。 但 实际 上 这 种 “奇异 性 ”又 完全 决定 
了 系数 F, 的 浙 近 增长 。 对 于 这 种 情况 ， 我 们 可 以 直接 利用 展开 式 验证 系数 按照 旷 的 速率 增长 
(在 相差 一 个 常数 因子 的 前 提 下 )。 干 是 就 有 可 能 给 出 系数 按 这 种 方式 增长 的 一 般 性 的 条 件 ， 
并 给 出 一 般 性 的 技巧 ， 以 确定 其 他 的 增长 率 。 通 过 分 析 生成 函数 的 奇异 性 ， 我 们 常常 可 以 导 
出 关于 所 讨论 的 量 的 更 精确 估计 ， 而 不 是 不 得 不 借助 于 更 详尽 的 展开 式 。 该 课题 的 讨论 可 参 
看 4.10 节 ， 详 细 论 述 参 看 文献 [3]。 

然而 依然 存在 着 大 量 的 序列 ， 它 们 所 对 应 的 生成 函数 是 已 知 的 ， 对 这 些 生成 函数 做 简单 
的 代数 运算 ， 就 可 以 得 到 我 们 所 关心 的 那些 量 的 简单 的 表达 式 。 对 那些 表示 经 典 组 合 序列 的 
基本 生成 函数 ， 在 本 章 还 要 做 进一步 的 讨论 。 从 第 5 章 到 第 8 章 ， 将 对 组 合算 法 分 析 中 出 现 的 
那些 熟知 的 函数 给 出 全 面 的 分 析 ， 必 要 时 我 们 将 讨论 对 这 些 函 数 的 处 理 细 节 ， 我 们 拥有 确定 
这 些 系 数 的 强 有 力 的 工具 。 

3.5 利用 生成 函数 进行 变换 

生成 函数 可 以 简明 地 表示 一 个 无 穷 数 列 ， 其 重要 性 依据 这 样 的 事实 : 对 包含 生成 函数 的 
等 式 做 简单 的 运算 ， 往 往 可 以 得 到 关于 一 些 重要 序列 的 令 人 惊讶 的 关系 式 ， 而 这 些 关 系 式 用 
其 他 方式 是 很 难 导 出 的 。 下 面 看 几 个 基本 的 例子 : 

范 德 葡 卷 积 。 这 是 关于 二 项 式 系数 的 恒等式 ( 见 第 2 章 )， 


r S r+s 
Slawe) l v) 
上 式 的 推导 十 分 简单 ， 因 为 它 就 是 下 述 的 函数 关系 式 中 相应 的 系数 的 卷 积 
(1 +2)(1 +z =( +2)" 
利用 更 复杂 的 卷 积 、 可 以 导出 大 量 类 似 的 恒等式 。 
Quicksort 递 归 。 用 (1 - z) 乘 以 OGF， 对 应 于 对 系数 的 差分 ， 表 3-2 已 经 指明 了 这 一 点 。 第 
1 章 中 ， 关 于 Quicksort 的 递归 ， 就 是 这 样 处 理 的 〈 当 时 并 没有 明确 地 标明 )。 为 了 得 到 相应 的 
解 ， 还 要 做 其 他 的 变换 。 这 里 我 们 要 指出 ， 对 生成 函数 的 表示 方式 所 进行 各 种 操作 ， 比 对 序 
列 形式 的 操作 要 容易 得 多 。 对 此 ， 本 章 的 后 面 还 要 做 详细 的 讨论 。 
FARR, KFS ARAMA RAR RA 
F@)=7 7 (y=z+2’) 
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关于 y 展 开 这 个 式 子 可 得 


F(z) = 29o" = Ne +z)" 
= > > (ee 
>0 


nyi) 


这 就 是 韭 波 那 契 数 与 Pascal 三 角形 的 对 角 线 之 间 熟 知 的 关系 。 
二 项 式 变换 。 如 果 a”"= (1 - b)" 对 所 有 的 rn 成立， 则 显然 有 b"= (1 - 9"， 令 人 惊讶 的 是 ， 这 
一 点 可 推广 到 任意 序列 : 给 定 两 个 序列 {a,} 和 {4b,}， 满 足以 下 的 等 式 


a, = ?co 


由 表 3-4 可 知 ， 相 应 的 生成 函数 满足 ezB(-z) = 4(z)。 当 然 ， 此 时 也 有 4(-z) = eB), KER 


着 
b, = ?co 


在 随后 的 各 章 ， 将 看 到 更 多 类 似 处 理 的 例子 。 
习题 3.30 iH: ` 
2k\(2N-2k\ y 
+) N-k J-4 


习题 3.31 用 (1 - z 乘 以 Quicksort 的 生成 函数 所 满足 的 微分 方程 (3-3) 的 两 边 ， 所 对 应 的 
关于 序列 {CW} 的 递归 是 什么 ? 
习题 3.32 假定 某 OGF 满 足 微分 方程 : 
A(z) 


A'(z) = —A(z) + 一 一 
l-z 


(AF ECHR, TELBA 


它 所 对 应 的 递归 是 什么 ? 用 (1 - z) 乘 以 上 式 的 两 边 ， 然 后 令 系 数 相等 ， 可 导出 不 同 的 递归 ， 
然后 解 这 个 递 轨 。 试 将 这 种 求解 方式 与 直接 求 得 OGF 然 后 通过 展开 求解 的 方式 进行 比较 。 
习题 3.33 通过 下 述 卷 积 可 导出 关于 二 项 式 系 数 的 什么 样 的 恒等式 ? 
(+z) (a-z =(1-2z° (+z 
其 中 r>>s。 
习题 3.34 证 明 : 


Dae ORONA 


习题 3.35 利用 生成 函数 求 和 occwFi。 
习题 3.36 利用 生成 函数 求 关于 [z"] 一 < 的 和 式 。 


l-e 
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习题 3.37 利用 生成 函数 求 关于 [z17 HAR, 


习题 3.38 [Dobinski， 参 看 Comtet] 证 明 : 
nliz" le! = er K 
S4 n! 


习题 3.39 利用 OQGF 证 明 二 项 变换 恒等式 。 设 A(z) 与 B(z) 满 足以 下 关系 式 : 


- (=) 
Biz) ZAZI z-1/ 


然后 使 用 变量 代 换 : z= y/(y - 1)。 
习题 3.40 不 使 用 生成 函数 ， 直 接 证 明 二 项 变换 恒等式 。 
习题 3.41 [Faà di Bruno’s 公 式 ， 参 看 Comtet] 设 


f@= > fe" I OLDATA 
用 多 项 式 定理 导出 [z"]f (8(z)) 的 表达 式 。 
3.6 关于 生成 函数 的 函数 方程 


在 算法 分 析 中 ， 算法 的 递归 (或 算法 分 析 中 的 递 推 关系 ) 往往 要 得 到 关于 所 对 应 生成 汪 
数 的 函数 方程 。 我 们 已 经 看 到 了 一 些 例子 ， 在 这 些 例子 中 ， 可 以 求 出 函数 方程 的 显 式 解 ， 然 
后 展开 以 得 到 所 需要 的 系数 。 而 对 于 另外 的 一 些 情况 ， 我 们 可 以 利用 函数 方程 确定 解 的 渐进 


性 态 而 不 用 求 出 生成 函数 的 显 式 形式 。 或 者 将 问题 进行 变换 ， 得 到 一 个 更 容易 求解 的 类 似 的 © 


形式 。 本 节 ， 我 们 将 对 不 同类 型 的 函数 方程 通过 习题 和 例题 ， 提 供 一 些 说 明 。 
线性 。 关 于 斐 波 那 契 数 的 生成 函数 是 一 个 典型 的 例子 
f(z)= zf(z)+z f(z)+z 


该 线性 方程 将 导出 一 个 关于 生成 函数 的 显 式 公 式 ， 或 许可 以 进一步 展开 。 但 这 里 的 线性 指 的 
仅仅 是 出 现在 线性 组 合 中 的 函数 本 身 ， 而 系数 和 随后 导出 的 公式 可 以 是 任意 复杂 的 
非 线 性 。 对 于 更 一 般 的 情形 ， 生 成 函数 可 能 等 于 关于 它 本 身 的 任意 的 一 个 函数 ， 而 不 一 

定 是 线性 函数 。 这 方面 的 一 个 著名 的 例子 是 关于 Catalan 数 的 生成 函数 ， 它 由 函数 方程 定义 
如 下 

f(D) = ela) +1 
以 及 关于 树 的 生成 函数 ， 它 满足 以 下 的 函数 方程 

F(z) = ze? 


前 者 即将 在 后 面 讨 论 某 些 细节 ， 而 对 后 者 的 讨论 放 在 第 5 章 。 依 据 非 线 性 函数 的 性 质 ， 可 以 用 

代数 方法 导出 生成 函数 的 显 式 公式 。 在 本 章 的 后 面 ， 将 讨论 一 个 一 般 性 的 工具 ， 叫 做 拉 格 朗 

日 反 演 定 理 ， 利 用 它 可 在 许多 类 似 情况 下 导出 所 需要 的 系数 。 
inane: 例如 前 面 已 见 过 的 Quicksort 的 例子 


eA) 
(1— 5 1-z 





f(z)= 





-2 o_O 


下 面 将 看 到 更 详细 的 例子 。 当 然 ， 求解 生 成 函数 显 式 公 式 的 能 力 与 求解 微分 方程 的 能 力 直 接 
相关 。 
复合 函数 。 还 有 一 些 情况 ， 函 数 方程 可 能 含有 生成 函数 的 变量 的 线性 或 非 线 性 的 函数 。 
例如 下 面 一 些 来 自 算法 分 析 的 例子 
F(z) =E f(z/2) 
f(z)=z+ f(z? +2’) 
第 一 个 式 子 与 二 又 树 和 基数 排序 相关 (参看 第 7 章 )， 而 第 二 个 式 子 来 自 2-3 树 (参看 第 5 章 )。 
显然 ， 如 果 任 意 编制 一 个 复杂 的 方程 ， 则 不 能 确保 解 容易 得 到 。 求 解 这 一 类 方程 的 一 般 工 具 ， 
可 参看 文献 [3]。 
这 些 例子 告诉 我 们 ， 可 以 预期 ， 在 进行 算法 分 析 时 可 能 会 遇 到 生成 函数 的 使 用 。 本 书 我 
们 将 考查 这 些 例子 和 关于 生成 函数 的 其 他 函数 方程 。 通 常 ， 这 些 方 程 是 一 个 分 界线 ， 它 标志 
着 详细 的 算法 研究 的 终止 和 分 析 工 具 详 细 应 用 的 开始 。 无 论 求解 函数 方程 多 么 困难 ， 重 要 的 
是 要 记 住 我 们 能 够 利用 这 些 函 数 方程 得 到 基础 序列 的 性 质 。 
与 递归 类 似 ， 选 代 (iteration) 技巧 ， 即 简单 地 将 方程 逐次 代入 方程 本 身 ， 对 于 确定 由 图 
数 方程 决定 的 生成 函数 的 性 质 往往 是 很 有 用 的 。 例 如 ， 考 虑 满足 以 下 方程 的 EGF; 
f(z) = e* f(z/2) 


给 定 f(0) = 1， 就 必然 有 : 
f(z) = ee?” f(z/4) 


14 
= eee? f(z/8) 
= CE2+2124214+218+ 


= e” 


这 就 证 明 2" 是 以 下 递 推 关系 的 解 : 
-DA > had 
从 技术 上 讲 ， 和 迭代 需要 进行 无 穷 多 次 ， 但 由 原始 递归 容易 给 出 解 的 验证 。 
习题 3.42 证 明 下 面 的 展开 式 中 的 系数 户 
z+z?/2 z” 
e = yas 


天 0 
LOM RMB SHS +n- Dh. GRR: RBRO = ez+z2 所 满足 的 微分 方程 ) 。 
习题 3.43 解 函数 方程 : 
f(2)= ersz) +e” -1 
假定 F(z) 是 某 个 序列 的 EGF， 导 出 相应 的 序列 和 解 。 
习题 3.44 求 OGE 的 显 式 公式 ， 该 OGE 所 表示 的 序列 满足 分 治 递归 
fan = Sanat Sa (n> 1, fo = 9) 
Fans = fan (n>0, f=) 
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习题 3.45 ARF BAF, URSSOWERAR, 
f(z) = 1+#( -) 
习题 3.46 Polyal he TERRI ERX ASO: 
f(z)= i IS 
求 a(z) 和 b(z) 的 显 式 表达 式 ， 其 中 f(z) = a(z)/b(z)。 
习题 3.47 证 明 : 仅 存 在 一 个 形 如 f(z) = 吕 ,> hh ERR, RES = sin(f(z))。 


习题 3.48 ”利用 关于 2-3 树 的 函数 方程 导出 一 个 基础 递归 ， 再 用 这 个 递归 确定 共有 多 少 个 
具有 100 个 结 点 的 2-3 树 。 


3.7 利用 OGF 求 解 三 数 中 值 Quicksort 递 归 


作为 处 理 关于 生成 函数 的 函数 方程 的 一 个 详尽 的 例子 ， 我 们 回顾 一 下 在 1.5 节 给 出 的 一 个 
递 推 关系 ， 该 关系 描述 了 三 数 中 值 Quicksort 的 平均 比较 次 数 ， 如 果 不 使 用 生成 函数 ， 这 个 递 
推 关系 是 很 难处 理 的 

(N -k)(k -1) 


Cy =N+1+ > 
~ 14k <N N 
3 


其 中 ，Co= Ci = C2=0。 为 便于 分 析 ， 我 们 用 N+ 1 表示 为 划分 N 个 元 素 所 需要 的 比较 次 数 ， 实 际 的 
开销 依赖 于 如 何 计算 中 位 数 和 具体 实现 的 其 他 性 质 ， 但 可 以 限定 在 N + 1 的 附近 的 一 个 小 的 可 加 党 
数 的 范围 内 。 另 外 ， 初 始 条 件 C,=0 (由 它 可 导出 C;=4) 的 选取 也 是 为 了 便于 分 析 ， 尽 管 具体 实现 
一 般 是 不 同 的 值 。 如 同 在 1.5 节 所 做 的 ， 我 们 可 以 通过 取 这 个 递归 的 解 和 其 他 类 似 的 递归 的 解 的 线 
性 组 合 来 解释 其 细节 ， 诸 如 划分 阶段 数 的 计数 这 样 的 递归 〈 指 用 1 替代 V+ 1 得 到 的 同样 的 递归 )。 

下 面 是 按照 利用 生成 国 数 求解 递归 的 标准 步骤 处 理 的 。 用 NON - DC - 2) 乘 以 两 边 ， 然 
后 消去 和 式 中 的 对 称 部 分 ， 可 得 

NIN -1)(N - 2)Cy = (N + DNC - DN - 2) 412 (N-k\(k-DC,., 


ISC N 


(Cra + Cya) (N>2) 


然后 ， 用 zx- : 乘 以 两 边 ， 再 对 N 求 和 ， 最 后 得 到 微分 方程 
24 2E 
(l-2)° A-z) 
对 于 高 阶 微分 方程 ， 不 能 总 期 望 可 以 得 到 显 式 的 解 。 但 这 个 例子 还 是 属于 一 个 可 以 显 式 
求解 的 类 型 。 首 先 ， 用 (1 - J RARA., AR 
(1=2)°C"(2) 120- DC") + (3-6) 
A-z) 
在 这 个 方程 中 ， 每 个 系数 中 (1 - z) 的 次 数 等 于 该 项 求 导 的 阶 数 ， 这 是 一 种 在 常 微 分 方程 理论 
中 熟知 的 可 解 类 型 ， 叫 做 欧 拉 方程 。 用 一 个 算 子 乘 以 两 边 ， 然 后 微分 ， 可 以 将 该 式 写 成 可 以 
分 解 的 形式 。 定 义 算 子 如 下 : 








c" (z)= (3-5) 


yC(z) = (1- EOC) 
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于 是 可 以 将 式 (3-6) BEA: 
WY + DY + 2)C(z) = 12WC(z)+ 





24 
(1-z)’ 
将 以 上 包含 V 的 各 式 合 并 成 一 个 多 项 式 ， 再 分 解 因 子 ， 可 得 : 

24 
wy + -2)C(z) = 全 未 
这 就 意味 着 ， OO MANE 


24 

U2) = 一 一 一 U'@) = aa 
w= Gs 或 U'(z) a- > 
(y+5)T(z)=U(z) 或 T'(z)= 572, + 这 
(Wy-2Clz)=T(z) 或 C'(z)= 2s we 


解 这 些 一 阶 微分 方程 比 求解 原来 的 方程 要 简单 得 多 ， 立 即 可 以 得 到 解 。 


定理 3.5 (三 数 中 值 QuicksorD ”对 于 一 个 随机 排列 的 三 数 中 值 Quicksort 算 法 所 使 用 的 
平均 比较 次 数 为 : 


-£ ly 2) 
(N+ D(H Nal 74) (N > 6) 


证 明 延续 上 面 的 讨论 ， 解 微分 方程 的 结果 为 : 


1 12 24 
TT ze 5 35 

1 1 54 1 6 24 

C= Fo Fi Hans as" -o° 

展开 关于 C(z) 的 表达 式 (忽略 最 后 一 项 ) ， 就 可 得 到 所 要 的 结果 ( 见 3.1 节 中 的 习题 )。 这 个 
OGF 的 首 项 与 标准 的 Quicksort 的 OGF 相 比 ， 只 差 一 个 常数 因子 。 a 

我 们 可 以 将 这 个 分 解 转 换 到 U(z) 而 将 T(z) 转 换 到 对 应 的 序列 的 递归 。 考 虑 生成 函数 U(z) = 
EUnz* 以 及 T(z) = 5Twz*， 这 时 关于 生成 函数 所 做 的 处 理 对 应 于 关于 递归 所 做 的 处 理 ， 但 对 照 
直接 对 递归 求解 ， 前 者 所 使 用 的 工具 具有 更 广泛 的 可 用 性 ,而且 多 少 也 会 更 容易 发 现 和 使 用 。 
不 仅 如 此 ， 利 用 生成 函数 求解 的 方式 还 可 以 在 求解 大 样本 的 问题 中 使 用 ， 进 一 步 的 细节 可 以 
在 文献 [8] 或 [12] 中 找到 。 

除了 作为 生成 函数 使 用 的 实际 例子 之 外 ， 这 个 颇 为 详细 的 例子 还 表明 ， 对 于 我 们 所 关心 
的 一 些 重要 的 性 能 特征 多 么 精确 的 数学 表述 能 够 用 来 帮助 我 们 选择 算法 的 控制 参数 合适 的 值 
(此 时 是 样本 的 大 小 )。 例 如 上 面 的 分 析 指 出 ， 利 用 三 数 中 值 Quicksort 算 法 ， 我 们 可 以 节省 大 
约 14% 的 用 于 比较 的 开销 。 更 细致 的 分 析 还 要 考虑 一 些 额 外 的 开销 (主要 的 是 额外 的 交换 ， 
因为 分 割 元 更 接近 中 间 )。 分 析 表 明 ， 更 大 的 样本 将 会 导致 进一步 的 改进 。 

习题 3.49 AA - 2C) = Wy+D…(y+t+ DC). 

习题 3.50 求 在 三 数 中 值 的 Quicksort 算 法 中 所 使 用 的 交换 的 平均 次 数 。 





T(z)= 
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习题 3.51 求 在 Quicksort 算 法 中 ， 在 平均 的 意义 下 所 使 用 的 比较 和 交换 的 次 数 。 算 法 修 
改 为 在 分 划 时 ， 使 用 5 个 元 素 的 中 位 数 。 
习题 3.52 [Euler] 讨论 下 述 微分 方程 的 解 : 


r-j d’ 
DA g. 


并 讨论 非 齐 次 情形 的 解 ， 其 中 右边 的 项 形 如 (1 - z)”。 
习题 3.53 [van Emden, 参 看 Knuthl 证 明 : 当 具 有 (2t + 1) 个 元 素 的 样本 的 中 位 数 用 于 分 划 
时 ，Quicksort 所 使 用 的 比较 次 数 为 


NinN+O(N) 


Ay... TH 


3.8 利用 生成 函数 的 计数 


上 面 的 讨论 集中 于 如 何 将 生成 函数 作为 一 种 分 析 工 具 ， 用 于 求解 递 推 关系 。 这 只 是 其 功 
能 的 一 部 分 ， 生 成 函数 还 用 于 系统 地 求解 组 合 对 象 的 计数 问题 。“ 组 合 对 象 ” 可 以 是 正在 被 算 
法 操作 的 数据 结构 ， 因 此 这 种 计数 处 理 在 算法 分 析 中 也 具有 同样 重要 的 作用 。 


AN 


KM 
CEARTA 


Oo AS TR AED 
My TR Re My AR 


图 3-1 含 1、2、3、4 和 5 的 外 部 结 点 的 所 有 二 又 树 
第 一 个 例子 是 一 个 经 典 的 组 合 学 问题 ， 该 问题 所 对 应 的 基本 数据 结构 在 第 5 章 和 本 书 其 他 





D 


许多 地 方 都 会 讨论 到 。 二 叉 树 (binary tree) 是 递归 定义 的 一 种 结构 ， 它 或 者 是 一 个 单个 的 外 
部 结 点 (external node ) ， 或 者 是 一 个 连接 两 棵 二 叉 树 的 内 部 结 点 (internal node )， 这 两 棵 二 
叉 树 分 别称 为 左 子 树 和 右 子 树 。 图 3-1 给 出 了 至 多 为 $ 个 结 点 的 全 部 二 叉 树 ， 二 又 树 出 现在 组 
合 学 和 算法 分 析 的 许多 问题 中 。 例 如 ， 如 果 内 部 结 点 对 应 于 两 个 参数 的 算术 运算 ， 外 部 结 点 
对 应 变量 ， 那 么 二 叉 树 就 对 应 算术 表达 式 。 现 在 要 处 理 的 问题 是 : 有 多 少 棵 具有 NN 个 外 部 结 点 
的 二 又 树 ? 

二 丸 树 的 计数 。 处 理 方 式 之 一 是 定义 一 个 递归 。 设 Tw 是 具有 N + 1 个 外 部 结 点 的 二 又 树 的 
个 数 ， 由 图 3-1 可 知 T0= 1, T= 1, T= 2, T,= 5, T= 14。 利 用 递归 定义 可 以 导出 一 个 递 推 关系 : 
一 个 具有 N + 1 个 外 部 结 点 的 二 叉 树 ， 如 果 左 子 树 具 有 k 个 外 部 结 点 (这 样 的 左 子 树 有 T - ,个 )， 
则 右 子 树 一 定 有 N -大 + 1 个 外 部 结 点 《存在 Tw- :种 可 能 )。 于 是 ，Tw 必 满足 : 

Ty = paua (N>0, T= 
1 <N 


这 是 一 个 简单 的 卷 积 。 两 边 乘 以 x*， 再 关于 N 求 和 ， 我 们 发 现 对 应 的 OGF 一 定 满足 非 线 性 
ADE 
T(z) = 2T(zy +1 


利用 二 次 方程 ， 容 易 求 出 T(z) 的 表达 式 : 
zT(z) = (i +1- 4z) 
为 了 保证 z = 0 时 两 边 相 等 ， 右 边 应 取 减 号 。 


定理 3.6 (二 又 树 的 OGF) 具有 N+ 1 个 外 部 结 点 的 二 又 树 的 棵 数 由 Catalan 数 给 出 : 
-vl-4z 1 (a) 


2 O N+1\N 








Ty = gzl 


证 明 OGF 的 显 式 表 达 式 已 在 上 面 给 出 。 为 了 得 到 系数 ， 对 指数 = ;用 二 项 式 定理 展开 ( 牛 
顿 公 式 )， 得 : 


令 两 边 系数 相等 ， 便 得 到 


1 Nel 
5-2) {zn 
(N +1)! 
_ 1:3+5+(2N -1)-2% 
g (N+D! 
1 1-3-5--(2N-1) 2°4°6---2N 
Nel N! 1.2.3…N 


1 A 
N41 w) E 
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我 们 将 在 第 5 章 看 到 ， 二 叉 树 的 外 部 结 点 的 个 数 恰 好 比 内 部 结 点 的 个 数 多 1 个 。 于 是 ，Catalan 数 
7 也 给 出 了 具有 N 个 内 部 结 点 的 二 又 树 的 棵 数 。 在 下 一 章 我 们 将 看 到 ， 其 近似 值 是 TWw ~ 4 / NaN 。 

二 又 树 的 (直接 ) 计数 。 有 一 种 更 简单 的 方式 可 用 于 确定 上 述 生 成 函数 的 显 式 表达 式 ， 
这 种 方式 使 我 们 进一步 看 到 生成 函数 在 计数 问题 中 实质 性 的 应 用 。 定 义 7 为 全 部 二 又 树 的 集合 ， 
记号 ll 表示 二 叉 树 上 的 内 部 结 点 的 个 数 ， 其 中 埠 7。 于是， 可 以 得 到 


T(z) = > z" 
=1+ yen 
tL tr 


=1+27(zy 


上 式 第 一 行 是 由 定义 得 到 的 T(z) 的 另 一 种 表达 式 。 一 棵 恰好 具有 K 个 外 部 结 点 的 树 对 2 的 系数 
的 贡献 恰好 是 1。 于 是 和 中 的 z* 的 系数 就 是 对 具有 Kk 个 内 部 结 点 的 树 的 计数 。 第 二 行 是 由 二 又 
树 的 递归 定义 得 到 的 : 一 棵 二 叉 树 或 者 没有 内 部 结 点 (对 应 于 1)， 或 者 它 可 以 分 解 为 两 棵 独 
立 的 二 叉 树 ， 这 两 棵 子 树 的 内 部 结 点 构成 了 原 树 的 内 部 结 上 点， 再 加 上 一 个 根 结 点 。 第 三 行 的 
导出 是 由 于 下 标 变量 t;/、itx 是 各 自 独立 的 。 建 议 读者 仔细 地 研究 这 个 基本 的 例子 ,在 本 书 中 将 
看 到 很 多 其 他 类 似 的 例子 。 

习题 3.54 修正 上 面 的 推导 ， 直 接 导 出 具有 N 个 外 部 结 点 的 二 叉 树 的 棵 数 的 生成 函数 。 

兑换 美元 〈 波 利 亚 (Polya) )。 一 个 经 典 的 利用 生成 函数 计数 的 例子 是 波 利 亚 提出 的 ， 问 题 
描述 如 下 : “用 1 分 、5 分 、1 角 、25 分 、50 分 的 硬币 兑换 1 美元 ， 共 有 多 少 种 兑换 方法 ? ”如 果 
使 用 二 叉 树 的 直接 计数 的 方法 ， 其 生成 函数 可 表 为 

p+5n+10d+25q+50f 
Do- il 

其 中 求 和 所 使 用 的 下 标 p, n, d 等 等 ， 分别 表示 所 使 用 的 1 分 、5 分 、1 角 等 硬币 的 个 数 。 每 个 总 
和 为 k 分 的 一 个 选 定 的 硬币 的 组 合 对 zx 的 系数 的 贡献 恰好 是 1， 于 是 这 就 是 所 需要 的 生成 函数 。 
由 于 在 D(z) 的 表达 式 中 ， 每 个 求 和 下 标 都 是 独立 的 ， 因 此 可 得 


D(z) = DD ae DAD 
P n q 
1 


~ (=z) - 2 1-2 ~ 21 - 2) 


通过 建立 对 应 的 递归 ， 或 利用 计算 机 代数 系统 ， 可 以 求 得 [z™]D(z) = 292. 
习题 3.55 讨论 [z 疏 D(z) 的 表达 式 的 形式 。 
习题 3.56 写 出 用 于 计算 [z*JD(z) 的 有 效 计算 机 程序 ， 其 中 NN 由 现场 输入 。 
习题 3.57 证 明 将 NN 表示 成 2 的 畴 的 线性 组 合 (具有 整数 系数 ) 的 方法 总 数 的 生成 函数 是 


1 
[iz 


= de d+ 72424) 
-z 





习题 3.58 [Euler] 证 明 : 


给 出 前 ! 个 因子 的 乘积 的 封闭 形式 ， 该 式 有 时 也 被 称 为 “计算 机 科学 恒等式 ， 为 什么 ? 





习题 3.59 将 上 面 的 习题 推广 到 以 3 为 底 的 情形 。 

习题 3.60 以 N 的 二 进 制 表示 表 出 [2](1 -JA -AA - zd 2)…。 

二 项 分 布 。 恰 好 有 k 位 为 1 的 长 度 为 N 的 二 进 制 序列 (显然 有 N 一 位 为 0) 共有 多 少 个 ? 设 
Bn 表示 全 部 长 度 为 N 的 二 进 制 序列 的 集合 ，Bm 表 示 全 部 长 度 为 N 且 恰好 有 k 位 为 1 的 二 进 制 序 
列 的 集合 ， 相 应 的 生成 函数 应 满足 


B© = X [Bak 


但 注意 到 在 Bt, MERE AAS EEA ROR RR 1. BAM 
函数 ， 使 它 按 每 个 串 “ 计 数 ”: 


By(z) = ae = » t|- > By, z) 


现在 ,我 们 把 所 有 具有 k 个 1 的 N 位 二 进 制 申 的 集合 表示 为 所 有 具有 Kk 个 1 的 N - 1 位 二 进 制 串 的 
集合 (在 每 个 串 的 前 面 加 一 位 0) 与 所 有 具有 k - 1! 个 1 的 N - 1 位 二 进 制 串 的 集合 〈 在 每 个 串 的 
前 面 加 一 位 1) 的 并 。 于 是 

By(z)= Ñz*+ z‘ 
N-1)k wad, 


= By_,(Z) + ZBy_,(2) 


N 
于 是 Bu(z) = (1 + z)"。 利 用 二 项 式 定理 展开 这 个 函数 ， 即 得 到 所 需要 的 答案 1B l- ( + , 


下 面 给 出 用 生成 函数 求解 计数 问题 的 一 般 方法 : 

。 首 先 ， 对 于 要 计数 的 组 合 学 对 象 ， 写 出 带 有 关于 下 标 求 和 的 生成 函数 的 一 般 的 表达 式 。 

。 然 后 ， 按 照 对 应 关系 ， 将 求 和 式 分 解 为 若干 个 处 理 对 象 的 结构 ， 以 导出 生成 函数 的 显 式 

公式 。 

。 最 后 ， 将 生成 函数 表示 为 逢 级 数 的 形式 ， 以 求 得 系数 的 表达 式 。 

在 前 面 介绍 二 又 树 计 数 问 题 的 生成 函数 时 ， 我 们 曾 介 绍 了 一 种 不 同 的 处 理 方法 : 使 用 要 
处 理 的 对 象 的 结构 ， 导 出 一 个 递归 ， 然 后 利用 生成 函数 解 这 个 递归 。 对 于 简单 的 问题 ， 使 用 
这 种 还 是 那 种 方法 ， 讲 不 出 太 多 的 理由 ， 但 对 于 较 复 杂 的 问题 ， 直 接 方法 可 以 避免 有 时 候 是 
和 递归 一 起 产生 的 单调 宛 长 的 计算 ， 在 本 书 的 后 面 将 看 到 许多 这 方面 的 例子 。 更 重要 的 一 点 
是 ， 直 接 方法 可 以 导致 具有 较 强 功能 的 一 般 化 的 处 理 。 在 下 一 节 ， 我 们 将 介绍 一 个 计算 框架 ， 
在 这 个 框架 内 过 程 的 第 一 步 儿 乎 是 自动 实现 的 ， 最 后 一 步 ， 即 从 生成 函数 的 显 式 表 达 式 中 求 
出 系数 ， 则 与 求解 递归 是 相同 的 。 
3.9 符号 方法 

二 叉 树 的 函数 方程 是 相当 简单 的 ， 那 么 是 否 可 以 使 用 更 直接 的 推导 方法 呢 ? 答案 是 肯定 
的 。 树 的 递归 定义 与 OGF 的 二 次 方程 之 间 的 相似 性 是 十 分 明显 的 。 本 节 我 们 将 指出 ， 这 种 相 
似 性 并 不 是 一 种 巧合 ， 而 是 本 质 的 。 我 们 可 以 将 表达 式 . 

T(z) =1+ 2zT(z) 


解释 为 : “一 棵 二 叉 树 或 者 是 一 棵 空 树 或 者 由 一 个 结 点 和 两 棵 二 又 树 组 成 。 
这 样 处 理 有 两 个 明显 的 特色 : 首先 它 是 符号 的 ， 可 以 只 使 用 少量 的 代数 法 则 对 符号 信息 
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进行 操作 。 有 些 作者 强调 ， 这 事实 上 是 在 使 用 符号 图 求解 ， 而 不 是 对 所 得 到 的 公式 中 诸如 z 之 
类 的 变量 求解 。 其 次 它 直接 反映 一 种 定义 结构 的 方式 ， 我 们 生成 这 些 结构 ， 而 不 是 把 它们 分 
解 开 来 进行 分 析 。 

无 标号 对 象 。 像 在 前 一 节 那 样 ， 当 使 用 生成 函数 计数 时 ， 我 们 是 在 考虑 那些 组 合 对 象 的 
类 ， 对 每 个 对 象 定义 一 个 记号 “大 小 ”。 对 于 类 A， 我 们 用 a 来 表示 类 A 中 大 小 为 n 的 元 素 的 个 
数 。 此 时 我 们 关注 的 是 OGF l | 

A(z) a 27 


给 定 两 个 组 合 对 象 的 类 A 和 B， 可 以 用 “不 相交 并 ”运算 4 + B 将 它们 结合 在 一 起 ， 得 到 
的 类 由 A、B 中 不 重复 的 元 素 组 成 。 而 运算 “ 笛 卡 儿 乘 积 ”A x B 则 给 出 一 组 有 序 对 的 对 象 的 
类 ， 其 元 素 一 个 来 自 4， 一 个 来 自 B。 下 面 的 定理 在 关于 组 合 对 象 的 类 的 运算 与 相应 的 生成 函 
数 之 间 ， 给 出 一 个 简单 的 对 应 关系 。 这 一 结果 可 以 使 我 们 直接 利用 对 象 的 构造 性 定义 导出 生 
成 函数 之 间 的 函数 关系 。 


定理 3.7 (OGF 符 号 方法 ) 设 A 和 B 是 两 个 组 合 对 象 的 类 ， 如 果 A(z) 是 用 于 计算 A 的 
OGF， 而 B(z) 是 用 于 计算 B 的 OGF， 那 么 

A(z) + B(z) 是 用 于 计算 A + B 的 OGF， 

ARO 是 用 于 计算 4 x BRIOGF, 


I e Tao EATR Ap 的 对 象 序列 的 OGF。 


证 明 ”要 证 明 的 第 一 部 分 是 显然 成 立 的 : 如果 a, 是 A 中 大 小 为 n 的 对 象 的 个 数 ， 而 b, 是 B 中 
大 小 为 mn 的 对 象 的 个 数 ， 那 么 w+ b, 就 是 4 + B 中 大 小 为 的 对 象 的 个 数 。 

为 证 明 第 二 部 分 ， 注 意 到 对 于 从 0 到 n 中 的 任何 一 个 :， 都 可 以 在 A 中 找到 大 小 为 的 ai 个 对 
Z. 再 与 从 B 中 找到 的 大 小 为 * -k 的 b, - :个 对 象 组 合 在 一 起 ， 构 成 4x B 中 大 小 为 x 的 对 象 ， 
于 是 ，A x B 中 大 小 为 n 的 对 象 共 有 

D abr 


A, KARAER BER. Bb, 


P = > = A(z)B(z) 


关于 第 三 部 分 序列 的 结果 可 以 由 以 下 表达 式 导 出 : 
6+ A+ 4+ Bt At 
这 是 关于 4 中 的 对 象 序列 的 类 的 表达 式 。 其 中 s 表 示 空 序列 。 利 用 定理 的 前 两 部 分 ， 关 于 这 个 
类 计数 的 生成 函数 是 : 
1+ A(z)+ A(z} + A(z)? + A(z)* +- = g a 

习题 3.61 给 出 定理 3.7 的 第 2 部 分 另 一 种 证 明 ， 早 前 面 关 于 二 叉 树 的 “直接 ”推导 ， 利 用 
生成 函数 的 组 合 的 形式 给 出 这 个 证 明 。 

下 面 看 一 个 简单 的 例子 。 设 A 是 由 大 小 为 0 的 空 对 象 e 组 成 的 类 ，B 是 由 大 小 为 1 的 两 个 对 
象 {0, 1} 组 成 的 类 ， 则 4(z) = 1, 8(z) = 2z， 于 是 组 合 类 {e, 0, 1} 的 OGF 是 1 + 2z。 这 里 要 注意 ， 





空 对 象 e 的 OGF 是 1， 它 与 空 类 % 完 全 不 同 ， 后 者 的 OGF 是 0。 设 Z 是 所 有 二 进 制 串 的 集合 ， 一 
个 二 进 制 串 或 者 为 空 ， 或 者 严格 对 应 于 由 一 个 0 或 一 个 1 后 跟 一 个 二 进 制 串 组 成 的 有 序 对 。 符 
号 表示 为 

B=2+{0,1}xB 
利用 定理 3.7， 这 个 符号 形式 可 直接 转换 为 生成 函数 所 满足 的 函数 方程 ， 即 

B(z) = t+ 2zB(z) 
于 是 ，B(z) = 1/0 - 2z), By= 2， 这 正 是 所 期 望 的 。 此 外 ， 我 们 还 可 以 把 2 看 作 是 由 二 进 制 


字符 表 {0, 1} 上 的 序列 形成 ， 其 OGF 就 是 2z， 于 是 由 定理 3.7 的 序列 法 则 ， 又 得 到 了 B(z) = 
1/(1 ~ 22). 


更 有 趣 的 类 似 的 例子 ， 考 虑 没有 两 个 0 相连 的 二 进 制 囊 ， 这 样 的 囊 或 者 是 e， 或 者 是 单个 
的 0， 或 者 1 或 01 后 跟 一 个 没有 两 个 0 相连 的 二 进 制 串 。 符 号 表示 为 
G= £+ {0} + {1,01} * G 
由 定理 3.7， 可 以 立即 转换 为 计算 这 种 数字 串 的 生成 函数 的 CCz) 的 分 式 : 
G(z)=1+z+(z+z°)GQ) 
于 是 可 得 G(z) = (1 + 01-2 - 2). HARES He A TOE KR NA ERA 
BAF + Fwy+1= Fryar 恰好 是 斐 波 那 契 数 。 
.还 有 另外 一 种 考查 二 进 制 串 的 方式 : 用 1 的 位 数 作为 大 小 的 参数 ， 于 是 1 + z 可 作为 类 {0， 


:1} 的 生成 函数 ，(1 + zj 可 作为 类 {00,01, 10, 11} 的 生成 函数 等 等 ， 而 (1 +) 可 作为 表示 1 在 长 


度 为 N 的 二 进 制 串 中 的 总 数 的 生成 函数 。 
再 回 到 二 又 树 ， 其 符号 公式 为 
T= {Cc} + {eo} x 7x T 
为 了 计算 内 部 结 点 的 个 数 ， 将 { 口 } 转 换 为 1， 将 {e} 转 换 为 z， 可 得 
T(z) =1+27T(zyY 


我 们 在 前 面 已 经 导出 ， 这 个 函数 方程 定义 了 Catalan 数 。 在 第 5 章 将 看 到 ， 在 研究 各 种 类 型 的 
树 的 性 质 时 ， 符 号 处 理 方式 的 简单 性 是 令 人 信服 的 ， 特 别 是 在 与 用 递归 进行 分 析 的 方法 比较 
之 后 。 

定理 3.7 也 叫做 “变换 定理 " ， 因 为 它 给 出 了 从 定义 结构 的 符号 公式 到 对 结构 计数 的 生成 了 
数 的 一 个 直接 的 变换 。 除 了 在 定理 3.7 中 介绍 的 并 、 笠 卡 儿 积 和 序列 等 操作 外 ， 还 有 许多 其 他 
用 于 建立 组 合 结构 的 操作 ， 这 些 例子 包括 关于 它们 的 集合 或 多 重 集 等 等 。 在 第 5 章 将 看 到 其 中 
大 部 分 例子 ， 相 关内 容 全 部 含 于 文献 [3]。 

习题 3.62 设 B 定 义 为 A 的 所 有 有 限 个 子 集 的 集合 ， 如 果 A(z)、B(z) 分 别 是 A 和 B 的 OGF， 
证 明 














nh pl A(z) A(z?) lL A(z?) = 2d 
B(z) []are expl AG) 5 Az") + FAG) j 


习题 3.63 ” 设 B 定 义 为 A 的 所 有 有 限 个 多 重 集 的 集合 (允许 重复 的 子 集 )， 如 果 A(z)、B(z) 
分 别 是 A 和 B 的 OGF， 证 明 
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B(z) = ae a = exp A(z) +5 l A(z?) ++ a Me) + ; 


带 有 标号 的 对 象 。 前 面 讨 论 的 一 Seu bane neem. 是 没 
有 区 别 的。 还 有 一 种 模式 ， 是 假定 这 些 单项 并 不 相同 ， 需 要 区 分 。 每 个 个 体 都 是 有 标号 的 ， 
因此 把 组 合 对 象 组 装 在 一 起 上 时， 每 一 个 单项 出 现 的 顺序 是 有 意义 的 。 带 有 标号 的 对 象 一 般 是 
利用 指数 生成 函数 计数 的 。 下 面 先 用 一 个 简单 的 例子 说 明基 本 的 原理 ， 然 后 在 第 5 章 和 第 6 章 
再 详细 研究 带 有 标号 的 对 象 的 相关 问题 。 

为 具体 起 见 ， 假 定 某 个 组 合 结构 是 由 N 个 最 基本 的 项 (有 时 也 称 为 “原子 ”) 组 成 。 将 每 
个 最 基本 的 项 用 整数 1 到 N 标 记 ， 如 果 两 个 对 象 在 结构 中 标号 次 序 不 相同 ， 就 要 看 作 是 两 个 不 
同 的 对 象 。 

上 面 我 们 在 讨论 组 装 无 标号 的 结构 时 ， 介 绍 了 诸如 “和 ”、“ 笛 卡 儿 积 ” 之 类 的 操作 ， 在 
此 我 们 将 定义 一 些 类 似 的 适用 于 有 标号 对 象 的 结构 。 其 主要 差别 是 : 当 两 个 对 象 联合 在 一 起 
时 ， 必 须 重新 标号 ， 使 得 在 大 小 为 N 的 结果 对 象 中 ， 只 能 出 现 标号 1 到 N。 特 别 在 做 组 合 类 的 
乘积 运算 时 ， 操 作 会 复杂 一 些 。 但 实际 上 可 以 利用 相应 的 “变换 定理 ”， 它 与 定理 3.7 非 常 类 
似 。 

图 与 排列 。 最 简单 的 标号 结构 是 排列 。 我 们 在 分 析 排 序 算法 时 已 提 到 了 这 一 点 。 一 个 排 
列 就 是 一 组 有 标号 的 项 的 一 次 有 顺序 的 摆 放 。 例 如 对 于 2 1 3 ,表示 这 样 的 顺序 安排 .标号 
为 2 的 项 排 在 第 一 位 ， 标 号 为 1 的 项 排 在 第 二 位 ， 标 号 为 3 的 项 排 在 第 三 位 。N 个 具有 标号 的 项 
共有 N! 种 不 同 的 排列 顺序 ， 于 是 ， 关 于 排列 的 EGF 是 


| pi! 4% N! l-z 


作为 一 个 更 有 启发 性 的 例子 ， 下 面 介 绍 一 种 由 有 标记 项 的 “ 圈 集 ”构成 的 组 合 类 。 这 个 
例子 似乎 比 上 面 的 位 串 例子 抽象 一 些 , 但 实际 上 只 不 过 是 从 另 一 个 角度 考查 排列 问题 而 已 。 
在 第 6 童 将 看 到 ， 圈 和 排列 与 大 量 的 基本 算法 的 分 析 直 接 相 关 。 这 里 所 使 用 的 分 析 方 法 ， 可 用 
于 解决 那些 用 其 他 方法 难以 解决 的 问题 。 

一 个 标号 圈 是 若干 有 标号 的 项 按照 循环 顺序 的 排列 。 例 如 ，(1 2 3) 表示 一 个 循环 顺序 ， 
其 顺序 规定 为 标号 为 2 的 项 紧 跟 在 标号 为 1 的 项 之 后 ， 标 号 为 3 的 项 紧 跟 在 标号 为 2 的 项 之 后 ， 
而 标号 为 1 的 项 应 眼 在 标号 为 3 的 项 之 后 。 于 是 ，(1 2 3) 所 表示 的 排列 对 象 与 (2 3 1) 相同 ， 
但 与 (2 1 3) 不 同 。 

习题 3.64 证 明 : ?个 项 的 所 有 不 同 标号 圈 的 总 数 是 (2 一 1)!。 

围 的 集合 可 以 简单 地 看 作 这 样 的 对 象 的 集合 : 在 这 些 对 象 中 间 ， 顺 序 是 不 重要 的 。 我 们 
希望 知道 ， 具 有 NN 项 的 圈 集 合共 有 多 少 个 ? (其 他 有 关 的 性 质 可 参看 第 6 章 )。 表 3-5 列 举 了 N = 
2, 3, 4 时 全 部 的 圈 集 合 。 

与 无 标号 对 象 (例如 树 ) 一 样 ， 我 们 需要 一 些 方式 将 标号 对 象 类 联合 在 一 起 。 在 这 里 
“不 相交 并 ”运算 本 质 上 是 相同 的 ， 但 “乘积 ”运算 要 包括 重新 标号 的 过 程 。 下 面 借 助 一 个 例 
子 说 明 这 一 点 。 假 设 我 们 要 从 两 个 圈 (1) 和 (1 3 2) 出 发 构造 一 个 2- 圈 对 和 象 ， 最 简单 的 结 
构 是 一 种 顺序 排列 : 用 具有 1 项 的 圈 ， 后 跟 一 个 具有 3 项 的 圈 ， 这 样 就 出 现 了 4 项 ， 于 是 标号 就 
应 该 从 1 到 4。 有 4 种 不 同 的 方式 可 以 作出 保持 一 致 性 的 处 理 ， 即 可 以 保持 每 个 围 成 分 的 原 有 的 
标号 顺序 





(1)(2 4 3) (2)(1 4 3) (3)(1 4 2} (4)(1 3 2). 
其 中 单个 元 素 组 成 的 圈 可 以 使 用 4 个 可 能 标号 中 的 任何 一 个 进行 标号 ， 而 相应 的 3- 圈 只 有 一 种 
标记 方法 用 剩余 标号 进行 标记 。 
3-5 全 部 的 有 标号 固 的 集合 (n=2,3,4) 
(1) (2) (1)(2)(3) (1)(2)(3) (4) (1)(2) (3)(4) 


(1 2) (1) (2 3) (1) (2 3 4) (1)(3) (2 4) 
(2) (1 3) (2) (1 3 4) (1)(4) (2 3) 
(3) (1 2) (3) (1 2 4) (2) (3) (1 4) 
(1 2 3) (4) (1 2 3) (2)(4) (1 3) 
(1 3 2) (1) (2 4 3) (3)(4) (1 2) 

(2) (1 4 3) (1 2 3 4) 
(3) (1 4 2) (1 2 4 3) 
(4) (13 2) (1 3 2 4) 
(1 2) (3 4) (1 3 4 2) 
(1 3) (2 4) (1 4 2 3) 
(1 4) (2 3) (1 432) 





类 似 地 ， 从 两 个 相同 的 轿 (1 2) 出 发 ， 有 6 种 不 同 的 方式 可 以 做 出 关于 两 个 有 标号 圈 的 有 序 
排列 : l 

(1 2)(3 4) (1 3)(2 4) (1 4)(2 3) 

(2 3)(1 4) (2 4)(1 3) (3 4)(1 2) 

HER ALE ABR BMRA AM 的 乘积 运算 4x B， 得 到 对 象 序 偶 的 类 ， 其 中 一 项 来 
自 4， 而 另 一 项 来 自 BB， 以 所 有 一 致 的 顺序 重新 标记 。 

下 面 ， 我 们 讨论 通过 构造 对 象 集合 来 建立 结构 的 对 象 。 在 上 面 的 例子 中 ， 当 把 两 个 2- 图 
联合 成 一 个 2- 圈 有 序 排列 时 ， 在 计数 时 每 个 标号 团 集 合 出 现 了 两 次 。 这 是 因为 ， 当 把 它们 联 
合成 集合 时 ， 转 的 次 序 是 不 重要 的 。 从 两 个 相同 的 图 (1 2) 出 发 ， 只 有 3 种 不 同 的 方式 可 以 构造 
两 个 标号 图 的 集合 : 

(1 2)(3 4) (1 3)(2 4) (1 4)(2 3) 

一 般 地 在 一 个 有 序 排列 中 ， 如 果 有 个 恒 等 的 分 量 ， 在 我 们 用 所 有 可 能 的 方式 重新 标记 它们 时 ， 
每 个 分 量 的 集合 要 出 现 所 次 ， 因 为 我 们 “忘记 ”了 各 分 量 之 间 的 顺序 。 等 价 地 ， 集 合 的 个 数 
可 以 通过 有 序 排列 的 总 数 除 以 k! 得 到 。 

标号 对 象 的 符号 方法 。 上 面 的 讨论 显然 可 以 又 得 到 一 个 变换 定理 : 

定理 3.8 (EGF 的 符号 方法 ) 设 A 和 BB 是 两 个 标号 的 组 合 对 彰 的 类 ， 如 果 A(z) 是 用 于 对 

A 计数 的 EGF， 而 B(z) 是 用 于 对 B 计 数 的 EGF， 那 么 ， 

A(z) + B(z) AMFA + B 计 数 的 EGF， 

AWOBO RA FA Ax Bit EGE, 

a ANTAY OH BALA RHEGE, 

MOR Fat AP Hat $15 RS MEGER, 


证 明 第 一 部 分 的 证 明 与 定理 3.7 中 的 证 明 相同 。 











ARR o 


为 证 明 第 二 部 分 , 注意 到 对 于 从 0 到 n 中 的 每 一 个 ， 都 可 以 在 A 中 找到 大 小 为 的 a 个 对 象 ， 
再 与 从 B 中 找到 的 大 小 为 n -的 b, -个 对 象 配 对 ， 构 成 A*B 中 大 小 为 x 的 对 象 。 重 新 标号 可 以 


有 (， 种 不 同 的 方式 (直接 选 定 标 号 ， 次 序 就 被 确定 了 )。 干 是 ， 在 AxB 中 标号 为 4 的 对 象 


共有 
DANCA 
个 ， 仍 然 是 一 个 简单 的 卷 积 。 
关于 第 三 部 分 序列 的 结果 也 与 定理 3.7 相 同 。 而 关于 集合 的 结果 ， 可 直接 由 下 面 的 符号 公 
式 导 出 : 
E+ At A724 A/3! + All 
HH = AxA, P=ArArd, FÉ. a 


现在 回 到 原先 的 例子 。 由 于 大 小 为 * 的 有 标号 轿 的 总 数 是 (n 一 1)!〈 见 习题 3.63)， 则 相应 的 
EGF 为 


此 时 定理 3.8 表 明 ， 用 于 对 有 标号 的 圈 集 合计 数 的 EGF 是 


1 1 
exp{In-—) = Iz 
这 就 是 说 ，n 项 的 圈 的 具有 标号 的 集合 的 总 数 恰好 是 n!， 即 排列 总 数 ， 这 是 一 个 基本 的 结果 。 
在 第 6 章 ， 我 们 将 看 到 ， 存 在 一 些 更 容易 的 方法 证 明 上 述 结 论 ， 但 这 里 的 证 明 结构 ， 可 以 使 我 
们 更 容易 得 到 一 些 更 加 困难 的 问题 的 求解 方法 。 

上 面 简短 的 介绍 只 给 出 了 符号 方法 的 一 个 表面 轮 廊 ， 这 一 方法 是 现代 组 合 分 析 的 核心 内 容 
之 一 。 更 详细 的 内 容 可 参看 Goulden 与 Jackson[5], 或 Stanley[14]。 在 [3] 中 ， 我 们 给 出 了 在 算法 
分 析 中 所 涉及 的 关于 这 一 方法 的 较为 深入 透彻 的 处 理 (还 可 以 参看 [16] ) 。 该 方法 在 理论 上 是 
相当 完备 的 ， 并 且 已 经 建立 了 相应 的 计算 机 程序 ， 这 些 程序 可 以 从 一 个 简单 的 递归 定义 出 发 ， 
自动 地 确定 具有 某 种 结构 的 生成 函数 ， 详 情 可 参看 Flajolet、Salvy 与 Zimmerman[2]。 在 本 书 中 ， 
我 们 介绍 了 基本 结构 及 其 性 质 ， 当 可 能 应 用 符号 方法 时 ， 给 出 了 通 向 [3] 的 一 些 线索 。 

由 定理 3.7 和 定理 3.8 所 概括 的 符号 方法 ， 适 用 于 结构 不 断 扩充 的 集合 。 虽 然 它 不 能 很 自然 
地 解决 所 有 问题 : 某 些 组 合 对 象 由 于 有 过 多 的 内 部 交叉 结构 而 难于 使 用 这 种 处 理 方 法 ， 但 对 
于 具有 很 好 的 分 解 形式 的 组 合 结构 ， 这 是 一 种 值得 提倡 的 方法 ， 例 如 各 种 树 结构 (第 5 章 )， 
一 种 典型 的 例子 ;排列 (oR) ; 串 (第 7 章 ) ; 以 及 字 或 映射 (第 8 章 ) 等 等 。 当 确实 可 
以 使 用 这 种 方法 时 ， 往 往 会 获得 惊人 的 成 功 ， 特 别 地 ， 它 可 以 很 快 地 分 析 基 本 结构 的 各 种 变 
体 。 对 于 第 5 章 到 第 8 章 的 许多 基本 结构 ， 我 们 将 给 出 不 止 一 种 推导 方法 ， 如 同 我 们 对 二 又 树 
和 位 串 所 做 的 工作 。 为 了 更 好 地 促进 基本 工具 的 使 用 ， 我 们 尽力 维持 文字 上 的 连贯 性 ， 同 时 
要 包含 多 种 情形 ， 包 括 那 些 适合 使 用 符号 方法 但 还 没 做 出 有 效 工作 的 地 方 。 在 后 面 我 们 将 看 
到 大 量 的 例子 ， 这 些 例子 帮助 我 们 得 到 对 生成 函数 之 间 一 些 简单 关系 的 基本 组 合 学 起 因 的 正 
确 评价 。 
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3.10 拉 格 朗 日 反 演 


我 们 常常 面临 着 从 生成 函数 中 提取 系数 的 任务 ， 而 生成 函数 的 定义 往往 隐 含 在 函数 方程 
之 中 ， 符 号 方法 使 得 这 项 工作 变 得 非常 简单 。 下 面 的 一 般 性 工具 可 用 来 解决 这 个 问题 ， 对 于 
与 树 的 计数 问题 相关 联 的 问题 ， 这 些 工 具有 具有 特殊 的 重要 性 。 


定理 3.9 ( 拉 格 朗 日 反 演 定理 ) 如 果 生 成 函数 4(z) = Div eR BRA Az = f (A(z), 
其 中 f(z) 满 足 f(0)=0,， 且 (0) + 0， 则 


n 





a, = [eA = 10" “| 





f@) 
以 及 rao" = Zurn | 
126 并 且 [z" ]g(A(z)) = “(a lg Oe Fu Hl 


证 明 略 。 可 参看 [1]。 其 中 包括 大 量 的 关于 这 一 公式 的 文献 ， 日 期 可 以 追 调 到 18 世 纪 。 轿 
函数 求 着。 国 数 j 的 赣 函 数 是 函数 广 :， 它 满足 广 :CD) = 了 (f(z)) =z， 将 广 :作用 到 方程 
z = f(A4(z)) 的 两 边 ， 可 以 看 到 函数 A(z) 正 好 是 函数 f(z) 的 逆 函 数 。 在 这 个 意义 上 ， 拉 格 朗 日 反 
演 定理 对 于 竹 级 数 的 转换 ， 是 一 个 广泛 应 用 的 工具 。 一 个 突出 的 特点 是 它 在 函数 的 逆 函 数 的 
系数 和 函数 的 宪 之 间 ， 提 供 了 一 个 直接 的 对 应 关系 。 在 本 书 的 相关 章节 中 ， FH He Be bs Be 
中 的 系数 ， 它 是 一 个 很 有 用 的 工具 。 通 过 下 面 给 出 的 大 量 例子 ,我 们 强调 一 种 形式 上 的 操作 ， 
但 只 给 出 一 些 应 用 框架 (各 种 树 的 计数 问题 )。 关 于 应 用 的 更 多 的 严格 的 表述 是 第 5 章 到 第 8 章 
的 主要 研究 内 容 。 
ZAIR., T(z) = zT(z) 是 对 应 于 二 又 树 的 关于 外 部 结 点 计数 的 OGF， 将 函数 方程 
T(z) = z+ T(z 
改写 为 
z= TP) - TPY 


应 用 拉 格 朗 日 反 演 定理 ， 取 f(u) =u- wa 
[z" (2) = Luo " = Liye f L) 
n \u-u n \1- 
然后 ， 利 用 表 3-1， 可 得 


n-l 


or 3 (na)! 
于 是 ， 考 虑 到 项 k = 2n - 2， 有 
u" pc ŁY- (和 中 因此 ereo- (7 ) 


n-l 
这 正 是 所 需要 的 。 
三 又 树 。 推 广 二 又 树 的 一 种 途径 是 让 树 的 每 个 结 点 具有 多 于 两 个 的 子 结 点 。 例 如 ， 三 又 
树 是 这 样 一 种 树 ， 其 每 个 结 点 或 者 是 外 部 结 点 ， 或 者 有 三 棵 子 树 〈 左 子 树 、 中 子 树 、 右 子 树 )。 





42 Kh 81 


对 于 mn =1,2,3,4,5,6, 70, 具有 nn 个 外 部 结 点 的 三 叉 树 的 计数 序列 是 1， 0, 1, 0, 3, 0, 3, we 
利用 符号 方法 ， 可 以 立即 导出 函数 方程 : 

z=TDI(zD)-7TGI(z) 
利用 3.8 节 关于 二 又 树 所 做 的 处 理 ， 并 不 容易 成 功 ， 因 为 现在 是 三 次 方程 ， 而 不 是 二 次 方程 。 
但 是 应 用 拉 格 朗 日 反 演 定理 ， 取 f(4) =u 一 局， es 


(317) = Lry \" 
[2 六 (z) “tu (= mw) 





然后 利用 与 前 面 同样 的 处 理 ， 由 表 3-1 可 得 


2n-2 


eo k 2k 
d- DAAD 


于 是 ， 考 虑 到 项 2k = 3n - 3 (RAMA, BOE), A 
1 /G3n-3)/2 
n-l ) 


[2"1T(z) = = 
n 


对 所 有 的 奇数 成立 。 当 n 是 偶数 时 ， 其 值 为 0。 

二 又 树 的 森林 。 推 广 二 又 树 的 另 一 种 途径 是 考虑 二 又 树 的 集合 ， 即 所 谓 的 森林 。 二 叉 树 
的 k- 森 林 是 k 棵 二 又 树 的 一 个 有 序 的 序列 。 由 定理 3.7， 关 于 k- 森 林 的 OGF 正 好 是 (z7(z)， 其 中 
T(z) 是 关于 二 又 树 的 OGF。 由 拉 格 朗 日 反 演 定 理 ( 使 用 定理 3.9 中 第 2 种 情况 )， 具 有 n 个 外 部 结 
点 的 二 又 树 的 k- 森 林 的 总 数 为 


[z"] 


1- V1- 下 k (2n-k-1 

(=E -*{ n-l 

这 些 数 也 叫做 选票 数 (ballot numbers), “os ea ANR. 
标号 树 。 考 虑 国 数 方程 


C(z) = ze 
这 是 熟知 的 一 般 的 《标号 无 序 ) 树 的 指数 型 生成 函数 所 满足 的 函数 方程 ( 见 第 5 章 )。 应 用 拉 
格 朗 日 反 演 定理 ， 取 f(w) = we“， 则 可 立即 得 到 
1 n” n 


[z” Co = “Nem 1 Ee 


n-i 





函数 C(z) 叫 做 Cayley 函 数 。 
习题 3.65 求 [z"]A(z)， 其 中 A(z) 由 以 下 函数 方程 定义 
_ A) 
1- A(z) 


习题 3.66 Ree, HHC(z) ECayley BK. 
习题 3.67 ” ( 阿 贝 尔 二 项 式 定 理 ) 利用 前 面 习 题 的 结果 和 恒等式 e+8cQ = Oh 
证 明 


(a+ B)\(n+a+ B)"" = o> AG +a) (n-k + py *" 


习题 3.68 e- 1 的 逆 函 数 是 什么 ? 通过 应 用 拉 格 朗 日 反 演 定理 ， 将 得 到 以 者 级 数 表示 的 


o 





什么 结果 ? 

习题 3.69 求 四 又 树 的 总 数 。 四 叉 树 是 这 样 的 树 ， 其 每 个 结 点 或 者 是 外 部 结 点 ， 或 者 有 四 
棵 有 序 的 子 树 。 

习题 3.70 求 具有 n 个 结 点 的 由 三 又 树 组 成 的 不 同 的 3- 森 林 的 总 数 。 


3.11 概率 生成 函数 


在 算法 分 析 中 使 用 概率 的 处 理 方式 可 以 简化 对 平均 值 和 方差 的 计算 ， 概 率 生 成 函数 与 这 
种 应 用 直接 相关 。 


定义 给 定 随机 变量 X， 该 变量 只 取 非 负 整 数值 ， 且 Pi =PAX=k), HRPU) = Yipee 
为 关于 随机 变量 X 的 概率 生成 函数 (PGF). 


我 们 假定 读者 基本 熟悉 在 1.7 节 以 及 在 算法 的 平均 情况 的 分 析 中 讨论 过 的 计算 随机 变量 的 
平均 值 和 标准 差 。 但 在 这 里 还 是 先 复 习 一 下 有 关 的 定义 ， 因 为 在 本 节 和 下 一 节 要 做 一 些 相关 
的 计算 。 


定义 ”XX 的 期 望 值 ， 或 E(X) (也 叫做 X 的 平均 值 )， 定 义 为 Zk>okpk。 根 据 产 = Pr(X< 

kK, EFFEX) = Eroll 一 re XMAEZ, Rvar(X)Z LAY solk 一 E(X)) Pr X 

的 标准 差 定义 为 /var(X) 。 

概率 生成 函数 是 很 重要 的 ， 因 为 它 提供 了 一 种 计算 平均 值 和 方差 的 计算 方式 ， 而 不 需要 
进行 求 离散 和 之 类 的 元 长 计算 。 

定理 3.10 (利用 PGF 求 平均 值 和 方差 ) 给 定 关于 随机 变量 X 的 PGF P(z)， 则 X 的 期 望 值 

由 P'(1) 给 出 ， 且 方差 由 P"(1) + P'(1) - POUPAR. 


证 明 如 果 pi = Pr(X =k), M 


P'(1) = >, Kw le = > 
k70 k?0 


由 定义 ， 这 就 是 所 要 的 期 望 值 。 类 似 地 ， 注 意 到 P(1) = 1， 则 所 述 关 于 方差 的 结果 由 定义 可 以 


X (k -= PD) -5E -25 POP + X P'O p 
PA D) P, 0 Pe 0 Dp, L350 DP 


= Yep - P'0? 
k> 0 | 
= P") + P'0)- PY? 
BEX) = pi 叫做 X 的 r 阶 矩 ， 期 望 值 是 一 阶 矩 ， 方 差 是 二 阶 扎 与 一 阶 托 平方 之 差 。 
在 3.9 节 的 两 个 定理 通过 符号 方法 实现 计数 的 合成 法 则 ， 可 转换 为 关于 独立 随机 变量 的 联 
合 PGF 的 相应 表述 。 例 如 ， 如 果 P(0、@(CoO 是 关于 独立 的 随机 变量 X 和 7 的 概率 生成 函数 ， 则 
P(wWQ(w) 是 关于 随机 变量 X+Y 的 概率 生成 函数 ， 而 且 两 个 概率 生成 函数 的 积 所 表示 的 分 布 的 
平均 值 和 方差 ， 分 别 是 各 自 平均 值 和 方差 的 和 。 
习题 3.71 给 出 按照 r, = Pr(X<k) 所 表示 的 var(X) 的 简单 表达 式 。 
习题 3.72 定义 mean(P) = P'(1), var(P) = P"(1) + P'(1) 一 Py, WH 
mean(PQ) = mean(P) + mean(Q), var(PQ) = var(P) + Var(Q), 对 任何 满足 P(1) = Q(1) 的 可 微 
函数 P 和 Q@， 而 不 仅仅 是 对 PGF 成 立 。 
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均匀 离散 分 布 。 给 定 整 数 n>0, 假 定 X, 是 随机 变量 ， 等 可 能 地 取 整 数值 0, 1,2, …, n - 1 的 
每 一 个 值 。 则 关于 X, 的 概率 生成 函数 是 


1 1 / 
Pw)=tetus tv ketun 
n n n 





期 望 值 是 
Pel d424--4(n-D) = 2 
n 2 
而 且 由 于 
PiU) 2(242-34--4 (n= 2(n—) = 2-D 
因此 方差 是 
， pa 到-1 
P,Q) + FQ) ~ FQ)" = 5 


习题 3.73 KAR: 
l-u” 
n(l-n) 





P, (u) = 


验证 上 述 结果 ， 用 洛 必 达 法 则 计算 1 处 的 导数 。 

习题 3.74 求 关于 随机 变量 的 PGF， 其 中 随机 变量 用 于 计算 随机 二 进 制 串 中 前 导 0 的 个 数 ， 
并 用 该 PGF 计 算 平均 值 和 标准 差 。 | 

二 项 分 布 。 考虑 一 个 具有 N 个 独立 位 的 随机 申 ,每 一 位 为 0 的 概率 是 p, 为 1 的 概率 是 4 = 1 - p。 
可 以 证 明 N 位 中 恰好 有 k 位 是 0 的 概率 是 


于 是 ， 对 应 的 PGF 是 
N 
P,(u) = ( ja =(pu+q)” 
N ,之 ， k 


另外 可 以 看 出 ， 对 应 于 单个 位 的 那些 0 的 PGF 是 (pu + 9), 而 且 N 位 是 互相 独立 的 。 于 是 对 应 于 
N 位 中 的 0 的 个 数 的 PGF 是 (pu + q)*, 0 的 平均 个 数 是 P(1) = PN, 方差 是 P"1) + PC) - P'\(1) = 
p4N 等 等 。 很 容易 做 这 些 计算 ， 而 不 需要 显 式 地 确定 单个 的 概率 。 

不 能 期 待 总 是 那么 幸运 ， 不 能 指望 经 常会 遇 到 可 以 完全 分 解 成 独立 的 刻 划 前 面 例子 的 特 
征 的 PGF 的 情况 。 在 这 种 情况 下 ， 结 构 数 2* 的 计数 容易 分 解 成 N 个 简单 因子 。 由 于 在 计算 平 
均值 时 ， 这 些 量 出 现在 分 母 中 ， 因 此 分 子 的 因子 分 解 也 就 成 为 可 能 。 反 过 来 ， 如 果 不 能 按 这 
种 方式 进行 因子 分 解 ， 例 如 对 Catalan 数 的 情形 ， 就 不 能 期 望 会 很 容易 地 找到 独立 的 参数 ， 
这 就 是 我 们 强调 在 算法 分 析 中 ， 使 用 累加 的 及 二 元 生成 函数 ， 而 不 是 PGF 的 主要 原因 (参看 
下 一 节 )。 

Quicksort 分 布 。 设 Qw(w) 是 Quicksort 所 用 到 的 比较 次 数 的 PGF， 应 用 关于 PGF 的 合成 法 则 
可 以 证 明 Qw(w) 满 足 函 数 方程 





1 +1 
Q, (u) = N, De Q,.,(u)Oy_,u) 


REMA IE RAONO SERRA SRE SE, ASH EK FE TE 
例如 微分 并 计算 在 x= 1 点 的 值 ， 将 会 直接 导出 我 们 在 3.3 节 给 出 的 标准 的 Quicksort 的 递 推 关 系 。 注 
意 ， 这 个 PGF 对 应 于 一 个 用 比较 次 数 作为 下 标的 序列 ; 我 们 在 3.3 节 求解 式 (3-1) 时 使 用 的 OGF 
是 用 文件 中 元 素 的 个 数 作为 下 标 ， 在 下 一 节 将 看 到 如 何 将 两 者 统一 处 理 成 一 个 二 重生 成 函数 。 

尽管 概率 生成 函数 对 于 进行 算法 的 平均 情形 的 分 析 似乎 是 很 自然 的 工具 ， 但 一 般 地 说 在 
处 理 组 合 结构 的 参数 分 析 时 ， 我 们 不 强调 使 用 PGF， 下 一 节 将 给 出 一 些 明显 的 理由 。 在 处 理 
离散 结构 时 ， 两 种 处 理 方式 在 形式 上 是 相关 的 ， 但 不 是 等 价 的 。 而 计数 方法 更 自然 一 些 ， 并 
且 人 允许 做 更 灵活 的 处 理 。 


3.12 二 元 生成 函数 


在 算法 分 析 中 ， 通常 我 们 不 仅 对 给 定 大 小 的 结构 的 计数 有 兴趣 ， 而 且 还 对 与 结构 相关 的 
各 种 参数 的 值 有 兴趣 ， 符 号 方法 也 拓展 到 这 种 情况 。 

为 了 达到 这 个 目的 ， 我 们 使 用 二 元 生成 函数 。 它 们 是 两 个 变量 的 函数 ， 表 示 双 下 标的 序 
列 : 一 个 下 标 表示 问题 的 大 小 ， 一 个 下 标 表 示 正 在 分 析 的 参数 的 值 。 二 元 生成 函数 使 我 们 能 
够 只 用 一 个 二 变量 的 生成 函数 获得 两 个 下 标 。 

定义 BRAM ERA {ay}, HR 


A(u, Z) = > 2 qz" 
50 


n20 
叫做 该 序列 的 二 元 生成 济 数 《BGF)。 我 们 用 记号 [wtz"]A(u, z) 表 示 am; MJAU, DR 
EEan"; 而 用 [u*}ACu, z) ATRI poan" o 


有 了 时候 需要 把 BGF 通 过 除 以 n! 变 成 指数 的 形式 。 于 是 ，{amw} 的 指数 BGF 为 


A(u, z) = > DE 
iS : 


n20 


我 们 经 常 使 用 BGF 对 组 合 结构 中 的 参数 值 如 下 计数 。 对 pE 户 其 中 是 一 类 组 合 结构 ， 令 
cost(p) 为 给 出 对 每 个 结构 定义 的 某 个 参数 值 的 函数 。 此 时 ， 我 们 的 兴趣 是 在 BGF 


Plu, z) = 2 MP)} lP = 之 2 Pulz" 
n? 0k 20 


上 ， 其 中 pu 为 大 小 为 n 和 | 值 为 (的 结构 的 个 数 。 为 了 把 所 有 大 小 为 r 的 结构 的 值 分 开 ， 我 们 也 写成 
Pe, d= Y pO 其 中 PODAM = Y Pat 
a>0 20 


而 为 把 所 有 值 为 k 的 结构 分 开 ， 则 写成 
Puna) = Yau eu 其 中 a0) = (UTA, 2) = > Puz" 


再 有 ， 注 意 
Pao- Yah = X PO = S aO 
>0 


> n20 
为 对 半数 的 常规 生成 函数 。 
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RM EBSSOREF, MRA KD Anh AHAB S BRERA, MAp Up IRAE 
表 开销 的 随机 变量 的 PGF。 因 此 ， 已 知 pv 和 pw(1) 就 使 我 们 能 够 计算 平均 开销 以 及 其 他 的 矩 
这 在 前 面 一 节 已 经 描述 。BGF 基 于 组 合 结构 开销 参数 的 计数 和 分 析 对 这 类 计算 提供 了 方便 的 
架构 。 ， 

二 项 分 布 。 令 B 为 所 有 二 进 制 串 的 集合 ， 并 把 二 进 制 串 的 “开销 ”函数 当 作 是 比特 1 的 个 
数 。 在 这 种 情况 下 ，{aj} 则 是 具有 k 个 1 的 n- 比 特 二 进 制 申 的 个 数 ， 于 是 相关 的 BGF 是 


rade BB Bar 
nook ?0 noo 一 


如 3.8 节 那样 ， 考 虑 另 一 种 推导 是 有 益 的 ， 这 种 推导 与 符号 方法 更 紧密 相关 ， 它 阐述 了 用 于 全 
书 许 多 类 似 推导 的 基本 处 理 手法 。 我 们 从 定义 


P(u,z)® > tt of 1-bits in 2) bd 


开始 。 每 一 个 二 进 制 串 b 或 者 为 空 ， 或 者 由 一 个 比特 〈 或 0 或 1) 后 跟 一 个 二 进 制 串 b' 组 成 。 这 
导致 下 面 的 分 解 


P(u, z) = 1 + x of lbits in b} ania + ae of 1 bits in by Ib 
=1+ zP(u, z)+uzP(u, Zz) 


关于 P(u, z) 求解 则 给 出 与 上 面相 同 的 闭 型 表达 式 。 通 常 ， 在 生成 函数 间 像 这 样 的 简单 关系 可 
以 用 符号 方法 解释 : 它 相当 于 把 一 个 二 进 制 串 定义 为 空 或 一 个 比特 后 跟 一 个 二 进 制 串 : 对 于 
比特 0 相应 BGF 为 z， 而 对 应 比特 1 则 BGF 为 uz。 这些 结论 与 像 前 一 节 关 于 BGF 的 结论 的 那些 转 
换 定理 联合 将 直接 得 到 这 个 结果 。 正 如 在 3.8 节 提 到 的 ， 第 三 种 办 法 是 利用 “序列 ”结构 论证 
在 比特 序列 中 比特 1 的 个 数 的 BGF 为 


N 1 
Pu Z) = PAG +uz) = Iasz 


将 其 展开 ， 我 们 立刻 看 到 


p,@)=(1+u)” 和 g= z 0-2” 
当然 ， 


k [zr n 
E Jp,(W = gD =| | 


正如 所 料 。 
我 们 当然 不 需要 为 这 些 平凡 的 工作 使 用 这 里 所 讨论 的 一 般 方 法 计算 二 进 制 串 中 1 的 个 数 ， 
但 是 使 用 像 这 样 一 个 容易 的 问题 作为 运行 的 例子 帮助 读者 检验 定义 和 理解 概念 是 有 益 的 。 在 
本 节 后 面 以 及 第 5 章 到 第 8 章 的 多 处 地 方 我 们 将 使 用 这 些 方法 来 帮助 求解 许多 更 难 的 问题 。 
BGF 展 开 。 把 大 小 为 的 结构 作为 [z]P(u, z) = 已 (中 分 离开 常常 叫做 BGF 的 “水 平 ”展开 。 
这 来 自 于 全 BGF 展 开 作 为 一 个 二 维 表 的 自然 表示 ，zx 的 寡 沿 水 平方 向 增加 ， 而 z 的 寡 沿 垂直 方 
向 增加 。 例 如 ， 二 项 分 布 的 BGF 可 以 写成 如 下 : 





n 


z(u?) + 

ZHU +u')+ 

z’ (u? + 2u' +u7)+ 

z(u? +3u! + Bu +u°)+ 

zi(u° +4u! +6u? + du +u*)+ 


z` (u? + ut +10u? +108? + 5u* + us) ++ 


RS LE AMET, RAHA, z) = qx(z)。 对 于 我 们 的 二 项 分 布 则 有 
u?(z? +z! +z? eerste yt 
u! (z! + 2z? +3z +424 +52% +--+) + 
u? (z? +32? +6z +102" +---) + 
u? (zZ? + 4z +10z5 +++) + 
u‘ (z 452° ++) + 
us (z+) + 


此 即 所 谓 BGF 的 垂直 展开 。 我 们 将 看 到 ， 这 些 表示 方法 在 算法 分 析 中 是 重要 的 ， 特别 是 当 全 
BGF 的 显 式 表达 式 不 是 现成 可 用 的 时 候 。 
和 矩 的 “水 平 ”计算 。 使 用 这 些 记 法 ， 概 率 及 和 矩 的 计算 就 简单 了 。 对 4 微分 并 求 在 x = 1 的 值 、 


我 们 发 现 
pil) = > Pu 


Pu, teu = = 1 处 对 4 的 偏 导数 是 该 量 的 生成 函数 。 现 在 p,(1) 是 大 小 为 x? 的 7 的 成 员 数 ， 如 果 我 们 
认为 大 小 为 4 的 7 的 所 有 成 员 都 是 等 可 能 的 ， 那 么 大 小 为 n 的 结构 具有 开销 k 的 概率 是 pWps(1) 并 
且 大 小 为 x 的 结构 的 平均 开销 是 p'(1)/pn(1)。 


定义 令 Z 为 具有 BGEF P(u,z) 的 组 合 结 构 的 一 个 类 ， 则 涵 数 
oP(u, z) _ 加 
一 os 
被 定义 为 该 类 的 果 加 生成 函数 (CGF), HA, SPAT PP KD ANH HRA ts 
的 类 ， 则 和 
D costo) 
RELA Kh Antik Ap tE i Ro AK 


由 于 累加 开销 恰好 是 CGF 中 z" 的 系数 ， 因 此 这 个 术语 是 合理 的 。 有 时 候 累 加 开销 也 叫做 非 
规范 化 平均 值 (unnormalized mean)， 因 为 真正 的 平均 值 是 通过 “规范 化 ”得 到 的 ， 或 者 是 用 
大 小 为 n 的 结构 的 数目 去 除 而 得 到 的 。 


定理 3.11 (BGF 和 平均 开销 ) 给 定 一 类 组 合 结构 的 BGF P(u, z)， 则 给 定 大 小 的 所 有 结 
构 的 平均 开销 由 被 结构 数目 所 除 的 累加 开销 给 出 ， 或 
[ze] 2PM 2) 
ðu ul 
[z]PQ,z) 
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证 明 计算 是 简单 的 ， 直 接 从 p。(z/p,(D 是 相关 PGEF 的 结论 推导 ， 然 后 应 用 定理 3.10 即 可 。 m 
BGF 的 使 用 和 定理 3.11 的 重要 性 在 于 ， 平 均 开 销 可 以 通过 从 
ðP(u, z) 
ðu jut 
独立 地 抽取 系数 并 进行 除法 而 算出 。 更 紧凑 的 记 法 是 常常 把 偏 导数 写成 P.(1, z)， 标 准 差 可 以 
用 类 似 的 方法 算出 。 这 些 记 法 和 计算 在 表 3-6 中 给 出 了 总 结 。 
对 于 上 面 给 出 的 涉及 二 项 分 布 的 例子 ， 长 为 ”的 二 进 制 串 的 个 数 为 


和 P(z) 








n 81 | o,” l n 
l arul, -a 
且 累 加 开销 (所 有 n 比 特 二 进 制 串 中 比特 1 的 个 数 ) 是 
3l | ap nm 
kz "J A+ wz lz ag n2 





因此 比特 1 的 平均 个 数 是 mn/2。 或 者 从 ps(u) = (1 + uFi, R A Ep) = 2" 且 累加 开销 
为 p,(1) = n2"-!。 或 者 通过 直接 论证 来 计算 平均 值 ， 长 为 的 二 进 制 串 的 个 数 是 2*， 在 长 为 的 
所 有 二 进 制 串 中 比特 1 的 个 数 是 z2”  '， 因 为 共有 总 数 z2" 个 比特 ， 它 们 的 一 半 是 比特 1。 


表 3-6 ”从 二 元 生成 函数 计算 矩 


大 小 为 n 的 结构 的 开销 生成 函数 [z"]P(u, z) = p,(u) 
计数 开销 为 的 结构 的 生成 函数 [u* ]P(u, z) = qi(z) 


累加 生成 函数 oP 他 d| ag) 
. uat 
= 2 ką, (2) 
0 


大 小 为 n 的 结构 的 个 数 [z"}PC, z) = p,(1) 
ree 2. > 
Prk 


= pu(D 
=[z"]q(z) 


累加 开销 











n OP(u, z) 
Eou a pO 
平均 开销 [z"]Pd, 2) PAL) 
-RQ 
p, (1) 
方差 Pp, „Z0 (20) 
ps(l) P \p.(D) 





P(u,z) = >" {ot(P)} o dd Pat! z= dP (u)z" = Deu 


习题 3.75 如 上 所 示 ， 利 用 表 3-6 和 p,(w) = (1 + wu)"， 计 算 长 为 n 的 随机 二 进 制 串 中 比特 1 的 
个 数 的 方差。 
和 矩 的 “垂直 ”计算 。 另 外 ， 累 加 开销 还 可 以 用 垂直 展开 来 计算 : 


二 
w 
心 
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k 中 (z) = qj;(z) 


证 明 ”函数 ri(z) 是 开销 不 大 于 Kk 的 所 有 结构 的 生成 销 数 。 由 于 ri(z) - ri - 1(z) = qx(z)， 因 此 
累加 开销 为 


"1% k(7,(2) -ra (2) 
> 0 


EE EE = 

随 着 k 在 该 和 中 的 增加 ， 那 些 初始 的 项 抵消 (所 有 小 结构 的 开销 都 不 大 于 k)， 因 此 该 表达 
式 本 身 就 导致 浙 近 逼近 。 到 第 5 章 我 们 再 返回 到 这 个 课题 上 来 ， 到 那 时 我 们 首先 要 过 到 一 些 适 
合 垂直 公式 的 问题 。 

习题 3.76 从 垂直 展开 通过 首先 计算 上 面 描述 的 rz) 来 检验 二 项 分 布 的 中 值 是 m2。 

二 叉 树 中 的 树叶 。 现 在 看 一 个 更 有 趣 的 使 用 BGF 的 例子 ， 我 们 来 讨论 确定 大 小 为 n 的 二 又 
树 中 其 两 个 子 结 点 均 为 外 部 结 点 的 内 部 结 点 的 平均 个 数 问题 。 这 样 的 外 部 结 点 叫做 树叶 。 从 
图 3-1 观 察 ( 见 3.8 节 ) BABB, Rn = 0、1、2、3 和 4， 这 种 结 点 的 总 数 是 0(、1、2、6 和 20。 
用 Catalan 数 去 除 ， 则 相关 的 平均 值 为 0、1、1、6/5 和 10/7。 用 BGF 


T(u,z)= 多 ytes) zl 


表示 ， 图 3-1 中 的 树 对 应 下 面 的 项 

(Ge )z + 

(u')z' + 

(ul +u')z? + 

(u! +u +u? +u' +u)? + 

(u! +u! +u? +u +u +u? +u +u +u +u? +u u +u +u')z 
这 种 情况 的 二 维 情形 强调 BGF 对 于 分 析 的 功效 。 我 们 用 一 个 变量 z 记 录 一 维 〈 大 小 ) ， 而 另 一 
个 变量 xi 记录 另外 一 维 (开销 )。 将 这 些 项 加 起 来 得 到 

T(u,z) =1+uz! + 2uz? + (4u +u’ )z’ +(8u + 6u7)z* ++ 
检查 小 的 值 发 现 
T(l,z)=1+4z' +227 +5z° +14z +- 


和 


下 (1,z) = z! +227 +62° +20z4 pesi 


正如 所 料 。 函 数 方程 


T(u;z)=1+uz+zT(u, zy -z 


从 符号 方法 得 出 (将 变量 z 减 去 是 为 了 避免 大 小 为 1 的 树 被 计算 两 次 )。 严 格 地 说 ， 我 们 需要 一 
个 变换 定理 来 证 明 写 这 个 方程 是 正确 的 (对 于 这 样 的 定理 可 见 [3])， 但 是 ， 我 们 还 可 以 验证 方 
程 或 者 像 上 面 为 推导 Catalan 数 所 做 的 那样 使 用 生成 函数 通过 直接 论证 而 得 到 它 。 当然， 置 & = 1 
则 得 到 一 个 熟悉 的 函数 方程 ， 因 为 T(1, z) 是 Catalan 数 的 OGF。 现 在 对 4 微分 并 求 在 u = 1 的 值 ， 
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得 到 
T,(1,72)= z+2zT(1,z)T,(1,2) 
Zz 
“1-2z70,2) 
z 
AI-4z 
因此 我 们 证 明了 ， 在 大 小 为 的 二 叉 树 中 两 个 结 点 都 是 外 部 结 点 的 内 部 结 点 的 平均 个 数 为 


n z 2n-2 
eae. Cr __(n+ Dn 
1 (2n 1 /2n\ 2X(2n-1) 
ail.) cal, 
( 见 3.4 节 和 3.8 节 )， 它 趋向 于 mw4。 二 叉 树 中 大 约 L4 的 内 部 结 点 是 树叶 。 
习题 3.77 求 大 小 为 m 的 二 叉 树 中 其 两 个 子 结 点 都 是 内 部 结 点 的 内 部 结 点 的 平均 个 数 。 
习题 3.78 ” 求 大 小 为 4 的 二 叉 树 中 一 个 子 结 点 是 内 部 结 点 而 另 一 个 子 结 点 是 外 部 结 点 的 内 
部 结 点 的 平均 个 数 。 l 
习题 3.79 求 T(u,z) 的 显 式 公式 并 计算 二 又 树 中 树叶 数目 的 方差 。 . 
Quicksort 分 布 。 在 1.5 节 和 3.3 节 ， 我 们 已 经 比较 详细 地 研究 了 Quicksort 运 行 时 间 的 平均 
情形 分 析 ， 因 此 从 BGF 的 角度 考查 所 进行 的 分 析 是 有 益 的 ， 包 括 方差 的 计算 。 我 们 通过 考虑 


指数 BGF 
N 
Qu, z) = mlt Ž— 
Hz PX e N! 


开始 ， 其 中 qm 是 由 Quicksort 对 N 个 元 素 的 所 有 排列 所 使 用 的 比较 次 数 的 累积 计数 。 现 在 因为 N 
个 元 素 中 有 NI! 种 排列 ， 所 以 这 实际 上 是 “概率 ”BGF: [z*]Q(u, z) 不 是 别 的 ， 而 是 在 上 节 末 尾 
引入 的 PGF Qw(u)。 我 们 将 在 第 6 章 的 几 个 例子 中 看 到 ， 只 要 我 们 研究 排列 的 性 质 ， 这 种 在 指 
数 BGF 和 PGF 闻 的 关系 就 自然 地 成 立 。 因 此 ， 通 过 用 z 乘 以 3.10 节 中 递归 的 两 边 


i N+ 
Q, (u) = A uO, (u)Qn_(u) 











并 对 和 N 求 和 ， 我 们 可 以 得 到 函数 方程 
Zou, z)=u Q? (uzu)  (Qu,0)=1) 

HEU RBRGEAE, CHT EHE BERNE RRP ANS AE. 

定理 3.12 (Quicksort 方 差 ) 由 Quicksort 所 使 用 的 比较 次 数 的 方差 为 

2 
TN? -N+ HY ~20N + DHy +13 ~ 07-2) 

证 明 在 上 面 的 讨论 和 下 面 的 习题 中 已 经 对 本 定理 证 明 中 的 计算 做 了 概括 ， 有 些 计算 最 好 
是 在 计算 机 代数 系统 的 帮助 下 进行 。 从 近似 Hy ~ ln N ( 见 定理 4.3 的 第 一 个 推论 ) 和 Hw ~ 
7/6 (见习 题 4.58) 可 以 推出 渐 近 估计 。 该 结果 归于 Knuth[8] 。 a 


在 1.7 节 讨论 过 ， 标 准 关 (= 0.65N) 渐 近 地 小 于 平均 值 (= 2NinN - 0.846N)。 这 意味 着 
当 使 用 Quicksort 对 随机 排列 排序 时 〈 或 者 当 分 割 元 是 随机 选取 时 ) ， 所 观察 到 的 比较 次 数 应 该 


N 





以 高 概率 接近 平均 值 ， 随 着 N 的 增加 情况 更 是 如 此 。 
习题 3.80 确认 
mr 9 __! i 
A Tag 
并 证 明 
1 8 1,1 


ge) «Ou, 2) 2 $ mn _ 
ðu’ “i d-zy d-o l-z -z2 1- 





1 
do Q-a 1-2 da I-z 


习题 3.81 RG) + gbl(z) 中 们 的 系数 并 验证 定理 3.12 中 给 出 的 方差 的 准确 表达 式 〈 见 
习题 3.8)。 

二 叉 树 中 树叶 的 分 析 和 Quicksort 所 使 用 的 比较 次 数 的 分 析 ， 在 算法 分 析 中 使 用 二 元 生成 
函数 的 许多 其 他 例子 中 具有 代表 性 ， 我 们 将 在 第 5 章 ~ 第 8 章 看 到 。 正 如 我 们 这 里 的 例子 所 阐 
述 的 ， 一 个 原因 是 我 们 使 用 符号 论证 封装 算法 性 质 以 及 它们 的 生成 函数 之 间 关 系 中 的 数据 结 
构 的 性 质 的 能 力 。 我 们 的 例子 还 表明 ， 另 一 个 原因 是 由 BGF 为 计算 矩 特 别 是 平均 值 所 提供 的 
方便 架构 。 

表 3-7 ”一 些 经 典 的 “特殊 ”生成 函数 





二 项 式 系 数 1- = > (Jez ' 


a- Tea = zh a 
(L+u)" = x A 
第 一 类 Stirling 数 KE oF hae at 
Ifat wi 
rita 1- 1-z) -中 n! 
std d= Bl fe! 
k 
0 
第 二 类 Sti li 数 ue) 一 nį z z 
Z irling e > kl a 
ae 一 让 = Sila 
a-z- ae 1- kz) -3f ke 


伯 努 利 数 won > = 
ned i 
1- 1-42 1 (2n 
Catal VV z N — n 
atalani 2z Falak 
调和 数 n= Hz 
-z l-z $ 
l au 
阶乘 ; l-z Drm 





Z n 
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3.13 特殊 函数 


我 们 已 经 遇 到 一 些 特殊 的 数 一 一 诸如 调和 数 、Fibonacci 数 、 二 项 式 系 数 以 及 N! 一 一 的 序列 ， 
这 些 序列 对 所 考查 的 问题 是 内 在 性 的 ， 并 且 它 们 出 现在 如 此 多 不 同 的 应 用 中 ， 使 得 它们 凭借 
它们 本 身 的 价值 是 值得 研究 的 。 这 一 节 ， 再 扼要 考虑 几 个 这 样 的 序列 。 

我 们 定义 表 3-7 中 的 这 些 序列 为 所 给 生成 函数 中 的 系数 。 另 外 ， 还 存在 组 合 学 的 解释 也 可 
以 用 来 定义 这 些 序列 ， 不 过 我 们 更 愿意 使 用 生成 函数 作为 定义 ， 这 样 可 以 避免 偏向 任何 特定 
的 应 用 。 我 们 可 以 把 这 些 生 成 函数 看 作 是 添加 到 我 们 “已 知 ” 函 数 工具 箱 中 的 工具 一 一 这 些 
特殊 的 函数 如 此 频繁 地 出 现 ， 以 至 于 我 们 对 它们 的 性 质 有 了 相当 透彻 的 理解 。 

这 些 序列 主要 源 自 组 合 数学 : 它们 每 一 个 都 是 对 某 个 基本 组 合 对 象 的 “计数 ”， 其 中 有 一 
些 将 在 下 面 进行 扼要 的 描述 。 例 如 ，N! 是 和 N 个 对 象 的 排列 的 个 数 ，Hw 是 当 从 左 到 右 通过 一 个 
随机 排列 的 时 候 我 们 遇 到 的 比 所 有 此 前 遇 到 的 都 大 的 值 的 平均 次 数 ( 见 第 6 章 )。 我 们 将 避免 
全 面 讨论 特殊 数 的 组 合 数学 ， 而 是 重点 放 在 第 5 章 到 第 8 章 讨论 的 基本 算法 和 基本 结构 中 起 作 
用 的 那些 特殊 的 数 。 关 于 特殊 数 的 更 多 的 信息 可 以 在 像 Comtet[1]、Graham 、Knuth 和 
Patashnik[4] 以 及 Goulden 和 Jackson[5] 等 的 著作 中 找到 ， 这 些 序列 也 出 现在 分 析 中 。 例 如 ， 我 
们 可 以 利用 它们 从 表示 多 项 式 的 一 种 方式 转化 成 另 一 种 方式 。 下 面 我 们 介绍 一 些 例子 但 是 避 
免考 虑 全 面 的 细节 。 

算法 分 析 或 许 为 特 殊 序 列 的 研究 添加 一 个 新 的 趋势 : 我 们 反对 用 基础 算法 的 基本 性 能 特 
性 定义 特殊 序列 的 做 法 ， 虽 然 如 第 5 章 到 第 8 章 所 讨论 的 那样 对 每 个 序列 都 能 够 这 人 么 做 。 同 时 ， 
熟悉 这 些 序列 是 必要 的 ， 因 为 它们 出 现 得 太 频 繁 了 一 一 或 者 是 直接 出 现 ， 如 在 研究 实际 上 是 
处 理 基本 组 合 学 对 象 的 算法 的 时 候 ; 或 者 是 间接 出 现 ， 如 在 得 出 下 面 生 成 函数 之 一 的 时 候 。 
不 管 是 否 我 们 意识 到 特殊 组 合 学 上 的 联系 ， 深 刻 理 解 这 些 生成 函数 的 性 质 在 算法 分 析 中 常常 
是 开拓 性 的 。 第 5 章 到 第 8 章 将 讨论 这 些 与 特殊 算法 密切 相关 的 序列 的 更 多 细节 。 


二 项 式 系数 。 我 们 已 经 假设 读者 熟悉 这 些 特殊 数 的 性 质 : 数 (;) 表示 从 "个 对 象 选择 k 个 对 


象 (不 考虑 置换 ) 的 方法 数 ; 它们 是 多 项 式 (1 + 如 " 依 x 的 震 展 开 时 所 产生 的 系数 。 我 们 已 经 看 
到 ， 二 项 式 系 数 在 算法 分 析 中 经 常 出 现 ， 例 如 当 Quicksort 通 过 首先 选择 一 个 样本 而 被 改进 时 
就 是 如 此 。 

Stirling 数 。 存 在 两 类 Stirling 数 ， 它 们 可 以 用 来 在 多 项 式 的 标准 表示 和 使 用 所 谓 的 递 降 阶 
REL = x(x - 1)(x - 2) …(x — k+ 1) 的 表示 之 间 来 回转 换 。 


afters = ab 


Stirling 数 有 类 似 于 二 项 式 系数 的 组 合 学 解释 : 人 为 将 x 个 对 多 的 集合 分 成 个 非 空子 集 的 方法 








表 ， 而 |] 则 是 将 个 对 象 分 成 个 提 空 有 的 方法 数 。 我 们 在 39 节 已经 按 角 过 | |Sttning 分 布 并 


将 在 第 6 章 详细 地 讨论 它 。 {Strings A438 eH VOR A S. 


AZA] (Bernoulli) 数 。 具 有 EGF z(e - 1) 的 序列 在 许多 组 合 应 用 中 出 现 。 例 如 ， 如 果 
我 们 要 想 写 出 小 于 N 的 整数 的 次 备 的 和 的 显 式 表达 式 作为 N 的 标准 多 项 式 ， 那 么 我 们 就 需要 这 





6 
的 等 式 中 置 z 的 系数 相等 ， 我们 可 以 推出 序列 中 的 前 几 项 。 由 此 可 知 B。= 1， 然 后 B, + B/2=0, 
RIB, = -1/2， 然 后 By/2 + B1/2 + By6 = 0， 因 此 B, = 1/6 等 等 。 若 令 

Sy, = 大 


O<kK<N 


2 3 
z= (By + Bet By/22! + B,/62' tasai) 


则 EGF 由 





z' eX -1 
S (z) = 大 一 = ef = 
“© > r! PA e -1 


t >20 O< K<N 


给 出 。 现 在 这 是 “已 知 ”生成 函数 的 一 个 卷 积 ， 由 此 得 到 显 式 公 式 


t+1 
Sye = 1 ( Jane 
tlo K 


RNA 
N? N NW+)) 


k=—+—= 
2 2 2 


oN MAN NN+DON+)) 
1S EKN 3 2 6 6 


4 3 2 2 2 
BM NND 


2 4 4 


“16KSN 


面 一 般 地 
Nt! 


ki ~—— 


1 SiN t+1 


除了 这 种 基本 的 应 用 之 外 ， 伯 努 利 数 在 欧 拉 -麦克 劳 林 求 和 公式 中 起 着 实质 性 的 作用 《将 在 
4.5 节 中 讨论 ) ， 并 且 它 们 还 自然 地 出 现在 算法 分 析 的 其 他 应 用 中 。 例 如 ， 它 们 出 现在 与 第 7 章 
讨论 的 数字 树 相 关 的 一 族 算法 的 生成 函数 中 。 

伯 努 利多 项 式 。 上 面 出 现 的 多 项 式 


B (x)= > (pee 


具有 EGF 





z" Z x 
DO me 
许多 有 趣 的 性 质 由 此 可 以 得 到 证 明 。 例 如 ， 微 分 该 EGF 得 到 恒等式 

B, (x) = mB„ (x) (m>1) 


我 们 对 伯 努 利多 项 式 的 主要 兴趣 是 近似 积分 一 - 欧 拉 - 麦 克 劳 林 求 和 公式 一 一 的 解析 应 用 ， 下 
一 章 将 对 它 进行 详细 的 考查 。 
习题 3.82 给 出 下 列 各 式 的 闭 型 表达 式 
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x es Sele ee 5 afez 
n, Lo\k n! $0 n! n¥30 k n! 


习题 3.83 从 生成 函数 证 明 
DEE 


kref FE 
Hieke 


习题 3.86 证 明 对 所 有 的 m>>1 有 B,(0) = B,(1) = B,, 

习题 3.87 从 生成 函数 证 明 对 于 奇数 k>3，Bi 为 零 。 

其 他 类 型 的 生成 函数 。 在 本 章 开 始 我 们 提 到 ， 那 些 不 同 于 z* 和 zsk! 的 核 函数 可 以 导出 其 他 
类 型 的 生成 函数 。 例 如 ， 利 用 k “作为 核 函 数 给 出 犹 利克 菜 生 成 函数 (DGF)， 这 种 函数 在 数 
论 中 和 在 几 种 算法 的 分 析 中 起 着 重要 的 作用 。 它 们 最 好 是 理解 为 复数 z 的 函数 ， 这 样 它们 的 解 
析 性 质 就 超出 了 本 书 的 范围 。 然 而 ， 我 们 提 到 它们 是 为 了 激发 其 他 核 函 数 的 效用 以 及 和 站 述 可 
能 发 生 的 形式 处 理 的 种 类 。 对 于 1, 1, 1,…， 其 DGF 为 


Eo- Da 
即 黎 曼 5 函 数 ， 这 个 函数 在 解析 数论 中 起 着 核心 的 作用 。 
在 算法 分 析 中 ， DGF 通 常 表示 序列 的 数论 性 质 并 且 用 5 卫 数 表示 。 例如 ， 


5 ele a >») wen 


其 中 dw 是 N 的 因子 的 个 数 。 换 旬 话 说 ，Elz)* 是 {dy} 的 DGF。 
实际 上 ， 当 我 们 需要 用 到 数 的 二 进 制 表示 法 的 时 候 ， DGF 是 特别 有 用 的 。 例 如 ， 我 们 可 
以 容易 地 求 出 偶数 的 特征 序列 的 DGF: 
1 1 
Bm- om -zt 
再 有 ， 虽然 这 些 形式 处 理 是 有 趣 的 ， 但 是 这 些 函 数 在 复 平 面 上 的 解析 性 质 是 它们 在 算法 分 析 
中 使 用 的 重要 方面 。 详 细 的 细节 可 以 在 [3] 或 [8] 中 找到 。 


通过 使 用 其 他 的 核 一 一 诸如 zy(1 - z)(Lambert)， (a (牛顿 ), 或 z/(1 - ZC -ead -z 


( 欧 拉 ) 一 一 我 们 得 到 其 他 类 型 的 生成 函数 ， 它 们 经 过 多 个 世纪 已 经 证 明 在 分 析 中 具有 有 用 的 
性 质 。 这 些 函 数 偶尔 出 现在 算法 分 析 中 ， 对 它们 性 质 的 探讨 令 人 着 迷 。 我 们 顺便 提 到 它们 但 
是 并 不 对 它们 做 详细 地 考虑 ， 因 为 它们 起 不 到 OGF 和 EGF 那 样 的 核心 作用 。 这 方面 更 多 的 信 
息 可 以 在 [4]、[6]、[9] 和 [15] 中 找到 。 

习题 3.88 证 明 对 于 任意 的 >0， 其 二 进 制 表示 法 中 以 k 个 0 结束 的 数 的 特征 序列 的 DGF 为 
E(z)/2*, 





习题 3.84 从 生成 函数 证 明 


习题 3.85 从 生成 函数 证 明 
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习题 3.89 求 出 函 教 Www 的 DGF，Ww 为 N 的 二 进 制 表示 法 中 尾部 0 的 个 数 。 
习题 3.90 求 出 {NV?} 的 特征 函数 的 DGF。 
习题 3.91 证 明 


k 


z 
Siz -Da 





其 中 dd 为 N 的 因子 的 个 数 。 
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在 组 合 数学 、 概 率 论 、 以 及 解析 数论 中 长 期 使 用 生成 函数 ， 因 此 一 系列 大 量 的 数学 工具 
得 以 发 展 ， 它 们 实际 上 与 算法 分 析 有 着 密切 的 关系 。 我 们 使 用 生成 函数 一 方面 作为 组 合 工具 
帮助 处 理 一 些 重 要 的 量 的 精确 计数 过 程 ， 同 时 又 作为 解析 工具 以 得 出 问题 的 解 。 由 此 看 来 ， 
它们 在 算法 分 析 中 起 着 核心 的 作用 。 

我 们 引进 生成 函数 作为 一 种 求解 算法 分 析 中 所 产生 的 递归 的 工具 ， 目 的 是 强调 它们 对 所 
研究 的 量 (运行 时 间或 其 他 特征 参数 作为 问题 大 小 的 函数 ) 的 直接 关系 。 但 是 我 们 也 注意 到 ， 
递归 其 实 就 是 序列 的 一 个 特征 ; 而 对 应 的 生成 函数 本 身 则 是 另 一 个 特征 。 对 于 许多 问题 ， 情 
况 正 是 这 样 ， 直 接 论 证 能 够 产生 生成 函数 的 显示 表达 式 ， 而 递归 则 可 以 被 完全 避免 。 这 是 符 
号 方法 的 基础 ， 该 论题 在 后 面 各 章 的 例子 中 将 得 到 展开 ， 并 在 [3] 中 被 形式 化 。 

想 要 理解 我 们 正在 充分 有 效 地 分 析 的 结构 ， 可 以 应 用 符号 方法 推出 那些 对 应 结构 定义 的 
生成 函数 的 函数 方程 。 此 时 ， 我 们 能 够 得 到 关于 结构 的 信息 的 所 有 方式 。 更 为 重要 的 是 ， 我 
们 可 以 分 析 并 比较 以 类 似 方式 定义 的 那些 结构 的 无 数 变种 。 

在 本 书 中 ， 我 们 常常 给 出 经 典 的 推导 ， 一 方面 是 为 了 保持 和 文献 的 一 致 性 ， 同 时 也 是 为 
了 使 读者 获得 在 算法 分 析 中 产生 的 各 种 生成 函数 的 使 用 经 验 。 但 是 我 们 要 强调 ， 这 些 函数 间 
简单 的 函数 关系 在 大 多 数 情形 下 都 能 以 系统 和 直接 的 方式 通过 符号 方法 得 到 解释 。 

GF 重要 性 的 第 二 个 主要 原因 是 它们 的 解析 作用 。 利 用 生成 函数 表示 法 ， 我 们 常常 能 够 将 
一 个 问题 进行 变换 ， 以 观察 重要 的 序列 如 何 用 经 典 的 特殊 数列 来 表示 。 如 果 准 确 的 表示 法 不 
能 得 到 ， 那 么 生成 函数 表示 法 使 我 们 能 够 使 用 基于 复 变 函 数 性 质 的 强大 数学 方法 以 便 获 得 算 
法 的 性 质 。 对 于 出 现在 算法 分 析 中 各 种 大 量 的 函数 ， 我 们 可 以 通过 用 经 典 函 数 表示 的 展开 式 
找 出 系数 的 渐 近 行为 的 精确 估计 。 如 果 不 行 ， 那 么 我 们 可 以 放心 ， 复 变 汤 近 方 法 对 于 抽取 系 
数 渐 近 值 的 估计 量 是 随时 可 用 的 ， 这 在 第 4 章 有 简要 的 讨论 ， 并 在 [3] 中 详 加 论述 。 

常规 、 指 数 和 二 元 生成 函数 提供 一 个 基本 的 架构 ， 它 是 我 们 能 够 开发 一 条 通 向 分 析 在 算 
法 设计 中 起 核心 作用 的 大 量 基础 结构 的 系统 途径 。 在 下 一 章 将 要 深入 讨论 的 渐 近 方法 的 帮助 
之 下 ， 我 们 能 够 使 用 这 些 工 具 获 取 可 以 预报 各 种 重要 的 和 有 用 的 算法 性 能 特征 的 结果 。 这 个 
主题 将 在 第 5 章 到 第 8 章 进 行 详细 的 讨论 。 
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= s x Ss N 
第 4 章 Wh if is if 

在 算法 分 析 中 ， 我 们 最 初始 的 想法 一 般 都 倾向 于 导出 准确 的 数学 结果 。 然 而 ， 这 种 准确 
的 解 并 不 总 是 能 够 得 到 的 ， 或 者 如 果 能 够 得 到 准确 解 ， 它 们 也 可 能 太 复杂 ， 而 没有 多 大 用 处 。 
本 节 ， 我 们 将 考查 导出 问题 的 近似 解 或 台 近 准确 解 的 一 些 方法 。 因 此 ， 我 们 可 能 要 把 最 初 的 
倾向 改 成 导出 对 所 关注 的 量 的 简洁 而 准确 的 估计 。 

本 章 的 主要 目的 是 用 类 似 于 第 3 章 的 方式 ， 对 渐 近 展开 式 的 基本 性 质 给 出 一 个 综述 ， 给 出 
操作 这 些 展 开 式 的 方法 以 及 那些 我 们 在 算法 分 析 中 最 常 遇 到 的 展开 式 。 有时， 这 似乎 使 我 们 
远离 了 算法 分 析 ， 不 过 ， 我 们 将 继续 从 第 1 章 引入 的 与 特定 算法 有 关 的 问题 中 直接 提取 一 些 例 
子 和 习题 ， 并 为 第 5 章 到 第 8 章 中 将 要 进行 的 多 种 算法 的 研究 做 一 些 准 备 工 作 。 正 如 我 们 一 直 
在 做 的 那样 ， 本 章 我 们 将 把 精力 集中 在 来 自 于 实际 分 析 的 方法 上 。 用 于 复 分 析 的 渐 近 方法 是 
{11] 的 一 个 主要 论题 ， 我 们 将 在 4.10 节 中 对 这 些 方法 所 基于 的 原理 给 出 简要 的 讨论 。 

我 们 已 经 看 到 计算 机 算法 分 析 要 涉及 离散 数学 中 的 工具 ， 得 出 对 答案 的 最 容易 表达 的 方 
式 是 离散 函数 (如 调和 数 或 二 项 式 系数 ) 而 不 是 来 自 于 分 析 中 更 常见 的 函数 (如 对 数 或 指数 )。 
然而 ， 这 两 种 类 型 的 函数 在 一 般 情况 下 都 有 着 紧密 的 联系 ， 因 此 进行 渐 近 分 析 的 原因 之 一 就 
是 在 两 者 之 间 进行 “翻译 ”。 

通常 ， 一 个 问题 具有 “规模 ”的 概念 ， 我 们 感 兴趣 的 是 那些 当 规模 变 大 时 越 来 越 准确 的 
逼近 。 就 数学 的 本 质 和 我 们 所 求解 的 问题 而 言 , 如 果 我 们 的 答案 要 用 一 个 单一 的 参数 N 来 表示 ， 
那么 这 些 答案 通常 就 会 (EAL) 按照 N 和 logN 的 渐 近 级 数 来 表示 。 这 些 级 数 并 不 一 定 要 收敛 
(事实 上 它们 通常 是 发 散 的 )， 但 它们 初始 的 一 些 项 能 对 算法 分 析 中 引出 的 许多 的 量 给 出 非常 
准确 的 估计 。 我 们 的 一 般 方法 就 是 把 这 些 量 转换 成 这 样 的 级 数 ， 然 后 用 严格 定义 的 方法 对 它 
们 进行 操作 。 

考虑 渐 近 方法 的 一 个 动机 就 是 要 找到 一 种 方便 的 方法 ， 用 来 对 我 们 所 关注 的 量 的 特定 值 
计算 出 好 的 有 逼近。 我 们 的 另 一 个 动机 是 要 对 所 有 的 量 找到 一 个 规范 型 ， 以 便 更 容易 地 对 这 些 
量 进行 比较 和 结合 。 例 如 ， 我 们 在 第 1 章 中 看 到 ， 与 最 优 值 1gN! 相 比 ， 知 道 Quicksort 法 所 进行 
的 比较 次 数 接近 2NHw 对 我 们 是 很 有 帮助 的 ， 但 更 有 用 的 是 知道 二 者 都 与 NgN 成 正比 ， 前 者 的 
比值 是 1.4421…， 后 者 的 比值 是 1， 我 们 甚至 可 以 得 到 更 为 准确 的 估计 。 

另外 一 个 例子 是 我 们 在 6.6 节 中 将 要 遇 到 的 一 个 简单 排序 算法 ， 它 的 平均 运行 时 间 取 决 于 


最 a /(7") :这 是 一 个 简洁 而 准确 的 结果 ， 但 要 估计 出 该 算 法 的 运行 时 间 ， 我 们 或 许 相 


知道 ， 比 如 说 ，N = 1000 时 ， 这 个 量 的 值 是 多 少 。 对 较 大 的 N 而 言 ， 利 用 上 述 公式 求 值 并 不 是 
一 件 简单 的 任务 ， 因 为 公式 中 涉及 两 个 很 大 的 数 相 除 ， 或 是 涉及 重新 安排 计算 以 避免 大 数 相 
R. EE, 我 们 将 看 到 如 何 证 明 这 个 量 是 非常 接近 于 NNN /4 的 ， 当 N = 1000 时 ， 
用 NAWAN/14 求 得 的 值 为 14 012， 而 准确 值 约 为 14 014， 所 以 用 NVrN /14 计算 出 来 的 值 偏离 准 
确 值 的 程度 大 约 只 有 万 分 之 一 。 更 重要 的 是 与 以 前 一 样 ， 近 似 结果 把 这 个 量 的 值 随 N 增 加 而 增 
加 的 方式 很 清晰 地 表现 了 出 来 (例如 ， 通 过 检验 我 们 知道 ， 相 应 于 100N 的 值 大 约 是 相应 于 N 
的 值 的 1000 倍 )， 这 就 使 我 们 把 这 个 近似 结果 与 其 他 算法 或 相同 算法 的 其 他 形式 所 得 到 的 类 似 
结果 进行 比较 变 得 更 容易 了 。 


ive) 
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使 用 近似 值 的 另 一 个 重要 原因 是 : 近似 值 能 大 大 简化 在 许多 问题 的 分 析 中 可 能 要 涉及 到 
的 符号 运算 ， 从 而 导出 用 其 他 方法 可 能 得 不 到 的 简洁 答案 。 在 第 2 章 中 ， 当 我 们 讨论 递归 的 解 
时 ， 就 普 涉 及 到 这 一 点 ， 我 们 是 通过 求解 类 似 的 更 简单 的 递归 ， 然 后 再 估计 误差 的 办 法 来 求 
解 的 。 渐 近 分 析 提 供 了 一 个 系统 的 方法 来 辅助 这 样 的 论证 。 

本 章 的 一 个 主要 论题 就 是 我 们 计算 和 式 的 近似 值 的 处 理 方法 ， 因 为 准确 的 计算 可 能 是 困 
难 的 或 是 不 可 能 的 。 特 别 地 ， 我 们 将 考虑 如 何 利用 欧 拉 一 去 克 劳 林 求 和 公式 、 通 过 使 用 积分 吾 
近 和 式 的 方法 来 计算 和 式 的 值 。 我 们 还 将 考虑 计算 和 式 的 拉 普 拉 斯 方法 ， 通 过 调整 求 和 范围 ， 
做 出 适用 于 不 同 范围 的 不 同 逼近 。 

我 们 还 将 考虑 应 用 这 些 概念 的 几 个 例子 ， 以 求 得 第 3 章 中 所 引入 的 某 些 特殊 数列 的 近似 值 
以 及 可 能 会 出 现在 算法 分 析 中 的 其 他 一 些 量 的 近似 值 。 特 别 地 ， 我 们 将 较 详 细 地 考察 
Ramanujan-Knuth¥jQ- 函数 及 其 相关 的 分 布 ， 这 些 分 布 在 分 析 中 经 常会 出 现 。 然 后 ,我们 将 
考虑 在 各 种 情形 下 二 项 分 布 的 极限 。 正 态 允 近 (normal approximation) #li4#i&i (Poisson 
approximation) 是 算法 分 析 中 非常 有 用 的 经 典 结果 ， 它 们 也 为 本 章 所 开发 的 工具 提供 了 极 好 
的 应 用 范例 。 

关于 这 些 论题 的 标准 参考 文献 是 由 De Bruijn[6] 所 写 的 著作 ， 任 何 对 渐 近 分 析 真正 感 兴 
的 人 都 应 读 读 一 读 这 本 书 。 由 Odlyzko[18] 所 给 出 的 一 个 最 新 资料 也 提供 了 大 量 的 信息 和 丰富 
的 例子 。 关于 正 态 和 泊 松 允 近 的 具体 资料 可 以 在 Feller{8] 中 找到 。 我 们 所 考 虚 的 这 些 论题 中 的 
许多 细节 问题 也 可 以 在 [2]、[12]、[13]、[15]、 [19] 以 及 本 章 末 尾 所 列 出 的 其 他 参考 文献 中 找 
到 。[11] 中 详细 讨论 了 基于 复 分 析 的 各 种 方法 。 


4.1 有 关 渐 近 副 近 的 记号 

下 面 的 记号 被 广泛 地 用 来 对 函数 的 近似 值 进行 精确 的 说 明 ， 这 些 记 号 至 少 要 追溯 到 上 世 
纪 初 。 

定义 给 定 一 个 函数 F(M， 我 们 记 

g(N) = OCf(N)， 当 且 仅 当 N->oo 时 lg(N)/fOVWI 上 有 界 ， 


8(N) = o(f(N))， 当 且 仅 当 N->% 时 g(N)/f(N)—0, 
g(N) ~f(N)， 当 且 仅 当 N 一 % 时 g(N/f(N) 一 1。 


大 0- 记号 和 小 o- 记 号 提供 了 表示 上 界 的 方法 (小 o 用 于 表示 更 强 的 结论 )，~- 记 号 提供 
了 表示 渐 近 相等 的 方法 。 这 里 的 大 0O- 记 号 与 第 1 章 中 我 们 用 于 计算 复杂 性 的 讨论 时 所 给 出 的 
定义 是 一 致 的 。 人 们 已 经 提出 了 大 量 类 似 的 记号 和 定义 ， 对 这 些 记号 的 含义 感 兴趣 的 读者 可 
以 阅读 [6] 或 [12] 中 所 给 出 的 论述 。 
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正如 我 们 在 下 面 将 要 看 到 的 ， 通 常情 况 下 我 们 并 不 需要 直接 应 用 定义 来 确定 所 关注 的 量 
的 渐 近 值 ， 因 为 大 0O- 记 号 使 我 们 有 可 能 利用 一 组 较 少 的 基本 代数 操作 得 到 逼近 。 

当 在 任意 给 定 的 点 附近 逼近 实 变量 或 复 变量 的 函数 时 ， 我 们 将 使 用 相同 的 记号 。 例 如 ， 
我 们 称 


以 及 
当 x 一 0 时 ， eine x? -x + 0(x") 
l+x 


涉及 这 种 应 用 的 更 一 般 的 大 0O- 记 号 定义 可 以 通过 在 上 面 的 定义 中 将 N-o 换 成 x 一 xo 而 得 到 ， 
其 中 可 以 对 x 作 任 何 限制 (例如 x 必须 是 整数 、 实 数 或 复数 等 )。 极 限 值 x 通常 是 0 或 %, 但 它 也 
可 以 是 任何 其 他 值 。 一 般 从 上 下 文中 我 们 可 以 明显 地 看 出 所 涉及 的 是 一 组 什么 样 的 数 以 及 所 
涉及 的 极限 是 什么 ， 因 此 一 般 情况 下 我 们 就 写成 “x->xo” 或 “N 一 2%”。 当 然 ， 上 述说 明 同 样 
也 适用 于 小 o- 记 号 和 ~- 记 号 。 

在 算法 分 析 中 ， 我 们 避免 诸如 “此 量 的 平均 值 为 O(f(N))” 这 样 的 直接 用 法 ， 因 为 这 种 用 
法 给 出 的 信息 不 足以 予 报 性 能 。 实 际 上 ， 我 们 力求 用 大 0- 记 号 对 那些 其 值 远 远 小 于 主 项 或 
“ 首 项 ” 值 的 “误差 ”项 来 定 界 。 非 正式 地 讲 ， 我 们 期 望 所 涉及 的 项 对 于 较 大 的 N 而 言 ， 其 值 
小 到 可 以 忽略 的 程度 。 

大 O- 通 近 。 我 们 说 se(N) = f(N) + OCW), BBA HAS (MRIS), BIR 
差 将 在 MKN) 的 一 个 常数 因子 范围 内 。 像 以 往 一 样 ， 用 大 0- 记 号 时 ， 所 涉及 的 常数 可 以 不 指定 ， 
但 通常 假定 其 值 不 是 很 大 。 正 如 下 面 我 们 要 讨论 的 那样 ， 我 们 经 常 把 此 记号 与 h(N) = oN) 
一 起 使 用 。 

小 o- 通 近 。 一 个 更 强 的 表述 是 : 我 们 说 g(N) = f(N) + o(h(N))， 是 指 我 们 可 以 通过 计算 
f(D 来 下 近 g(N)， 且 随 着 N 的 增 大 ， 误 差 与 4(N) 相 比 变 得 越 来 越 小 。 在 减 小 的 速率 中 涉及 了 一 
个 没有 指定 的 函数 ， 但 通常 假定 此 函数 在 数值 上 永远 不 会 太 大 (即使 是 对 较 小 的 N 而 言 )。 

~- 禹 近 。 记 号 g(V) ~ FCN 用 于 表示 最 弱 的 非 平 几 小 0- 逼近 g(N) =f(N) + o(f(N))。 

以 上 这 些 记 号 是 很 有 用 的 ， 因 为 它们 使 我 们 能 够 隐匿 不 重要 的 细节 而 不 会 失去 数学 上 的 
严密 性 和 结果 的 精确 性 。 如 果 我 们 需要 一 个 更 精确 的 结果 ， 我 们 就 可 以 得 到 它 ， 否 则 大 部 分 
细节 性 的 计算 都 可 以 被 隐匿 掉 。 我 们 最 感 兴趣 的 是 能 够 保持 这 种 “潜在 准确 ”的 方法 ， 因 为 
只 要 我 们 愿意 ， 就 能 够 算出 任意 细致 精度 的 答案 。 

指数 级 小 项 。 当 涉及 到 对 数 和 指数 时 ， 我 们 值得 花费 一 些 精 力 去 认识 “指数 级 差别 ”， 以 
避免 那些 对 我 们 所 关注 的 量 的 最 终结 果 没 有 实质 性 影响 的 计算 。 例 如 ， 如 果 我 们 知道 一 个 量 
的 值 为 2V + O(logN)， 那 么 我 们 就 有 理由 确信 当 入 为 一 千 或 一 百 万 的 时 候 ，2N 是 在 真 值 的 百 分 
之 几 或 十 万 分 之 几 的 范围 之 内 ， 因 此 我 们 没有 必要 去 找 出 logN 的 系数 或 是 将 其 展开 式 精 确 到 
0O(1) 的 范围 之 内 。 类 似 地 ， 一 个 汤 近 估计 2* + O(N?) 也 是 非常 准确 的 。 但 另 一 方面 ， 知 道 一 个 
量 为 2NInN + O(N 时， 可 能 就 不 足以 确信 其 估计 值 的 相对 误差 是 在 一 个 因子 2 的 范围 之 内 ， 即 
使 当 N 是 一 百 万 的 时 候 也 是 一 样 。 为 了 强调 指数 级 差别 ， 我 们 有 时 非 正 式 地 把 一 个 量 称 为 指数 
Bop, WRENNER BOIS, BN: 对 任意 正 数 M， 该 量 小 于 O(I/N)。 典 型 的 
指数 级 小 量 有 e-v、e-og wy 以 及 (logN) ex 等 。 

习题 4.7 证明: 对 任意 正 的 常数 Ee” 是 指数 级 小 量 。( 即 : 对 给 定 的 a， 证明 对 任意 固 
定 的 M>0，e = O(N ”).) 
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习题 4.8 证 明 : es^ 和 (logN) "s* 都 是 指数 级 小 量 。 
习题 4.9 如果 a<B， 证 明 cwf 相 对 于 PB* 而 言 是 指数 级 小 量 。 对 B =12fa=11, SAB 
la” + B* 时 ， 分 别 对 N = 10 和 N = 100 求 逼近 值 的 绝对 误差 和 相对 误差 。 a» 
习题 4.10 证 明 : 一 个 指数 级 小 量 与 N 的 任意 一 个 多 项 式 的 乘积 是 一 个 指数 级 小 量 。 
习题 4.11 找 出 下 列 各 递 推 关系 中 所 隐 含 的 关于 a 的 最 精确 的 表达 式 : 
a, = 2a, + O(n) 
a, = 2a,,2 + o(n) 


a, ~ 2a2 +N 


在 每 种 情况 下 ， 都 假定 am 是 关于 an + OGD 的 简写 。 
习题 4.12 利用 第 1 章 中 的 定义 ， 求 下 列 各 递 推 关系 中 所 隐 含 的 关于 a, 的 最 精确 的 表达 式 : 
a, = 24,, + O(n) 
a, =2a + O(n) 


a, = 2an + Q(n) 


在 每 种 情况 下 ， 痢 假定 a 是 an +O0) 的 简写 。 
习题 4.13 KA>1, #Rf@)=x°, RPa>0, wax) wR 
“4x > Bt, a(x) = a(x/B) + f(x); 当 x<1 时 , a(x) =0 
及 b(x) 满 足 递 妇 
Ar Rt, bœ = b(x/B +c) + f(x); 4x< lt, bx) =0 
证 明 当 x->%m ht, a(x) ~ 500。 将 你 的 证 明 进 行 推广 ， 使 其 能 应 用 到 更 广 的 一 类 函数 SO). 
线性 递归 的 渐 近 性 。 线 性 递归 提供 了 渐 近 表达 式 可 以 导致 实质 简化 的 方式 的 解释 。 我 
们 在 2.4 节 和 3.3 节 中 曾经 看 到 : 任何 线性 递 推 序列 {a,} 都 有 一 个 有 理 的 OGF 和 一 个 形 如 Bn/ 
的 一 些 项 的 线性 组 合 。 从 渐 近 的 角度 而 言 ， 很 明显 其 中 只 有 几 项 需要 考 虚 ， 因 为 那些 B 较 大 
的 项 相对 于 那些 8 较 小 的 项 而 言 处 于 指数 级 的 支配 地 位 (见习 题 4.9)。 例 如 ， 在 2.3 节 中 我 们 
知道 


a, =Sa -6a (n>1; a, =0, a, =) 


的 准确 解 为 3 — 2"， 但 近似 解 3" 在 n> 25 时 能 准确 到 十 万 分 之 几 的 范围 内 。 总 之 ， 我 们 只 需要 
追踪 那些 与 最 大 绝对 值 或 最 大 模 数 有 关 的 项 。 


定理 4.1 (线性 递归 的 渐 近 性 ) 假设 一 个 有 理 生成 函数 F(z)/8(z) 具 有 唯一 一 个 最 小 模 数 
的 极点 1/B6( 即 g(1/Q) = 0， 且 az 意味 着 11/al>1 有 或 lal<1B1)， 其 中 jz) 与 8(Z) 互 素 
且 g(0) 关 0， 那 么 ， 著 1/B 的 重 数 是 vY， 则 我 们 有 
CB F/B) 

g(1/ B) 

证 明 ”根据 3.3 节 中 的 讨论 ，{z]f(z)/g(z) 可 以 表示 成 一 些 项 的 和 ， 它 与 8(z) 的 每 个 根 1/a 相 
关联 ， 即 每 一 项 都 具有 [z"] co(1 - a2) "的 形式 ， 其 中 vo 是 a 的 重 数 。 对 所 有 lal <1ipI 的 x， 这 样 
的 项 相对 于 对 应 于 B 的 项 而 言 是 指数 级 小 量 ， 因 为 

fa"] 1 eee R 
Z| a 


(1—az)" v,-1 


gf ~CPB"n™!, 其 中 CHv 
g(z) 





且 对 任意 非 负 的 M，ornw = 0(8") (见习 题 4.10 )。 
因此 ， 我 们 只 需 考虑 与 p 相 关 的 项 : 


fO) on _(n+u-l 
(VO [z ier B -ol ) 
(见习 题 4.4)， 所 以 下 面 剩 下 的 问题 就 是 要 确定 co， 因 为 (1 ~ Bz) 不 是 f(z) 的 因子 ， 于 是 ， 由 洛 
必 达 法 则 立即 得 出 : 
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m (l - pz) 1 
o= lima py £2. far Caroma Daman ， 

对 于 导致 8(z) 具 有 唯一 最 小 模 数 极点 的 递归 ， 该 定理 给 出 了 确定 解 的 产 近 增长 的 方法 ， 包 
括 首 项 系数 的 计算 方法 。 如 果 g(z) 的 最 小 模 数 的 极点 不 止 一 个 , 那么 在 对 应 于 这 些 极点 的 项 中 ， 
具有 最 高 重 数 的 那些 项 将 处 于 支配 的 地 位 (但 不 是 指数 级 的 )。 这 就 导致 确定 线性 递归 的 解 的 
浙 近 增长 的 一 般 方法 ， 它 是 对 3.3 节 卡 尾 所 给 出 的 求 准确 解 的 方法 的 一 个 改进 。 

从 递归 中 导出 g(2); 

.根据 g(2) 和 初始 条 件 计算 7(2); 

.消去 f(z)/g(2) 的 公 因 子 。 这 可 以 通过 分 解 f(z) 和 g(z)， 并 消去 公 因 子 来 实现 ， 但 这 并 不 需 

要 对 函数 进行 完全 多 项 式 分 解 ， 只 需 计算 最 大 公 因 子 ; 

. 在 那些 最 小 模 数 的 项 中 ， 确 定 对 应 于 最 高 重 数 极点 的 那些 项 ; 

. 利用 定理 4.1 来 确定 系数 。 正 如 前 面 所 指出 的 那样 ， 对 于 较 大 的 mn， 这 种 方法 将 会 给 出 非 

常 精确 的 答案 ， 因 为 所 忽略 的 那些 项 相对 于 所 保留 的 那些 项 而 言 是 指数 级 小 量 。 

这 个 过 程 将 立即 导出 对 线性 递归 的 解 的 简洁 而 准确 的 逼近 。 例 如 沽 虑 递归 





a, =20 +0 2 一 20 3 (n>2; a, =0, a, =a, =1) 
在 3.3 节 中 我 们 已 得 出 ， 其 解 的 生成 函数 是 
a(z) = fo z 


g(z) (1+z)0 -22) 
这 里 B = 2, v=1, g'(1/2) = -3 和 f(1/2) = 1/2， 所 以 由 定理 4.1 知 : a, ~ 2°73, 这 和 以 前 的 结果 
是 一 致 的 。 
习题 4.14 利用 定理 4.1 求 递归 
a, = 5a,_, ~84,_, + 44,_, (n>2; a, =1, a, =2, a, =4) 
的 一 个 渐 近 解 。 当 关于 ao 和 ai 的 初始 条 件 变 为 ao = 1 和 ai = 2H, RABI. 
习题 4.15 利用 定理 4.1 求 递归 


a, =2a,,~-4,4 (n>4; a, =a,=0, a, =a, =l) 


的 一 个 渐 近 解 。 
习题 4.16 利用 定理 4.1 求 递归 
a, = 3a,_, —34,_. + 4,_5 (n>2; a, =a, =0, a, =1) 
的 一 个 渐 近 解 。 


习题 4.17 [Miles, 参看 Knoth] 证 明 多 项 式 z 一 zz-! 一 … -z 一 1 具有 t 个 不 同 的 根 ， 且 对 所 





a 


有 的 t> 1， 恰 好 只 有 一 个 根 的 模 数 大 于 1。 
习题 4.18 AT “HY RR AMHR” IG 


Fy’ = Fy, + Fy, tet Fy, 


其 中 Ni， RlakOs-- = F008 Fl =1, AHEM-DUMA. 
习题 4.19 [Schur] 证 明 : AAETH Éd, dn …, d,( 且 di = DAR KNEE ERE AA 
式 数 渐 近 于 
NU 
d,d,---d,(t-)! 


(见习 题 3.55)。 


4.2 渐 近 展开 式 


正如 上 面 所 提 到 的 ， 与 方程 f(N) = O(go(N)) 相 比 ， 我 们 更 喜欢 方程 1(N) = cogo(N) + 
Olg1( 和 N))， 其 中 g1(N) = ol(go(N))， 因 为 该 方程 给 出 了 常数 c。， 所 以 当 N 增 大 时 ， 它 使 我 们 在 对 
f(N) 的 特定 估计 中 ， 能 够 改进 估计 的 精度 。 如 果 go(N) 和 g1( 和 N) 比 较 接 近 ， 我 们 可 能 希望 找到 一 
个 对 应 于 8g, 的 常数 ， 从 而 导出 一 个 “更 精确 的 ”表达 式 : WELAN) = olg:( 和 N))， 则 我 们 可 写成 
FN) = cogo(N) + ci8i(N) + O(82(N))。 例 如 对 于 实际 的 N 值 ， 用 展开 式 2NInN + (27 ~ 2)N + 
OUogN) 来 估计 Quicksort 所 需要 的 平均 比较 次 数 时 ， 比 用 表达 式 2NinN + O(N) 来 估计 要 精确 得 
多 ， 添 加 项 O(logM) 和 O(D 后 ， 估 计 结 果 将 更 加 准确 ， 如 表 4-1 所 示 。 


表 4-1 关于 Quicksort 比 较 次 数 的 渐 近 估计 


N 2(N + 1)(Ay., 7 1) 2NInN +(2y ~ 2)N +2(InN + y) +1 
10 44.43 46.05 37.59 44.35 
100 847.85 921.03 836.47 847.84 
1000 12 985.91 13 815.51 12 969.94 12 985.91 
10 000 175 771.70 184 206.81 175 751.12 175 771.70 


渐 近 展开 (asymptotic expansion) 的 概念 由 Poincaré (参看 [6]) 研究 并 提出 ， 它 推广 了 这 
个 想法 : 
定义 ARARKEN) Yoo k>, W Ag (N) = oN), AER 
FON) ~ cogo(N) + cg1(N) + c38 (N) ++ 
为 关于 让 的 一 个 渐 近 级 数 ， 或 上 的 一 个 渐 近 展开 式 。 新 近 级 数 代表 如 下 一 系列 公式 
F(N) = O(8(N)) 
FON) = cogo(N) + Olg (N) 
FON) = cogo (N) + c8: (N) + O(8,(N)) 
FCN) = cogo (N) + c8 (N) + c8 (N) + O(8,(N)) 


并 称 gAN) 为 一 个 渐 近 级 。 
我 们 从 渐 近 级 数 中 每 取 一 个 项 ， 都 会 给 出 一 个 更 准确 的 浙 近 估计 。 在 算 共 分 析 中 ， 许 多 





常见 图 数 都 存在 完全 渐 近 级 数 ， 原 则 上 我 们 主要 考虑 能 够 展开 ， 以 提供 描述 相关 量 的 渐 近 展 
开 式 的 方法 。 我 们 用 ~- 记 号 简单 表示 去 掉 误差 项 中 的 信息 ， 或 者 我 们 也 可 用 大 O- 记 号 或 小 
o- 记 号 来 给 出 更 具体 的 信息 。 

这 是 对 4.1 节 开始 部 分 所 给 出 的 ~- 记 号 定义 的 一 个 扩充 。 其 原来 的 用 法 仅 涉及 到 右 端的 一 
个 项 ， 而 当前 的 定义 要 求 一 系列 的 (递减 的 ) 项 。 

实际 上 ， 我 们 主要 还 是 处 理 有 限 的 展开 式 ， 而 不 是 (无限 的 ) 渐 近 级 数 ， 例 如 我 们 使 用 
记号 

f(N)~ Cogo (N) + 618, (N) + €282(N) 
来 表示 一 个 有 限 展开 式 ， 其 隐 含 的 误差 项 为 osx(N)。 我 们 最 常 使 用 的 形式 是 : 通过 简单 地 截 
断 渐 近 级 数 而 得 到 形 如 
FIN) = Cogo (N) + c18, (N) + 628 (N) + O(8,(N)) 


的 形式 。 在 实际 中 我 们 对 一 个 逼近 通常 只 使 用 几 项 (可 能 三 项 或 四 项 )， 因 为 在 一 般 情况 下 ， 

我 们 要 得 到 的 只 是 一 个 渐 近 级 ， 对 于 较 大 的 N 而 言 ， 它 可 以 使 后 面 的 项 与 前 面 的 项 相 比 要 小 得 

多 在 表 4-1 所 示 的 Quicksort 的 例子 中 ，“ 更 精确 的 ”公式 2NInN + (2y — 2)N + InN + 2y + 1 对 
= 10 就 已 经 给 出 了 绝对 误差 小 于 0.1 的 结果 。 

习题 4.20 扩充 表 4-1， 使 其 包含 N = 105 和 10 时 的 情况 。 

PoincarE 法 的 全 面 推广 允许 渐 近 展开 式 用 递减 的 任意 无 穷 函 数 级 数 来 表示 (在 o- 记 号 的 意 
义 下 )。 然 而 ， 我 们 最 常 关 注 的 却 是 一 组 非常 有 限 的 函数 : EXE, MANDRAKE AK 
时 ， 我 们 经 常 可 以 按照 N 的 递减 方 寡 来 表示 逼近 。 偶 尔 我 们 也 可 能 用 到 其 他 函数 ， 但 通常 我 们 
HEF HNMR. log N， 重 复 对 数 (如 loglogN) 以 及 指数 等 乘积 的 递减 级 数 的 项 所 构成 的 渐 
近 级 。 

当 寻 找 一 个 渐 近 估计 时 ， 为 得 到 结果 所 需要 的 精度 ， 我 们 并 不 需要 确定 展开 式 中 应 该 带 
有 多 少 项 。 例 如 ， 我 们 经 常 需要 减 去 或 除 以 一 些 量 ， 而 对 于 这 些 量 我 们 仅 有 它们 的 渐 近 估计 ， 
因此 也 可 能 会 发 生 删 除 现象 ， 它 需要 更 多 的 项 。 一 般 情况 下 ， 在 展开 式 中 带 有 三 项 或 四 项 ， 
我 们 也 许 会 重新 推导 ， 以 使 展开 式 更 加 精简 ， 或 一 旦 我 们 得 知 结果 的 本 性 后 ， 对 展开 式 增加 
更 多 的 项 。 

索 勒 展开 式 。 泰勒 级 数 是 许多 渐 近 展开 的 源泉 : 每 个 (无限 的 ) 泰勒 展开 式 都 能 产生 一 
个 当 x->0 时 的 渐 近 级 数 。 

表 4-2 给 出 了 某 些 基本 函数 的 渐 近 展开 式 ， 它 们 通过 截断 泰勒 级 数 而 导出 。 这 些 展开 式 都 
是 经 典 的 ， 并 可 根据 泰勒 定理 立即 推出 。 在 后 面 的 各 节 中 ， 我 们 将 利用 这 些 展 开 式 来 描述 处 
理 渐 近 级 数 的 方法 ， 其 他 类 似 的 展开 可 根据 前 一 章 中 所 给 出 的 生成 函数 立即 得 到 。 表 中 前 四 
个 展开 式 可 用 作 我 们 将 要 进行 的 许多 渐 近 计算 的 基础 (事实 上 前 三 个 就 足够 了 ， 因 为 几何 展 
开 是 二 项 展开 的 特殊 情况 )。 

作为 应 用 表 4-2 的 一 个 典型 例子 ， 考 虚 当 N 一 % 时 ， 求 In(N - 2) 的 一 个 渐 近 展开 的 问题 。 
我 们 可 以 通过 抽取 展开 式 中 的 第 一 项 而 求 之 ， 写 成 





Ni 2 «inn -2-40( 4) 
In(N - 2) =1 Nein N) ln N 2 of 1) 


也 就 是 说 ， 为 了 能 应 用 表 4-2， 我 们 求 出 一 个 满足 x 一 0 时 的 替换 (x = -2/V)。 
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表 4-2 由 泰勒 级 数 (x->0) 导出 的 渐 近 展开 式 


2 3 
指数 ea lert 4% + OC") 
2 3 

对 数 Mataar- + + 0(3) 

二 项 式 (+x) -Lakr(?]z [e + O(x*) 
几何 pgtana roe 

1-x 
三 角 函 数 sin(x) = 2-4 = + Ox ) 


6 


x? 
O; =]-—+-—+0O 
cos(x) 7 rE (x°) 





或 者 ,我 们 可 以 利用 泰勒 展开 式 中 更 多 的 项 ， PARI ISIE. 例如 ， 展 开 式 


(1 1 
TW oN +O Nn???) 
可 通过 先 将 InN 分 解 出 来 ， 然 后 在 In(1 + ) 的 展 式 中 取 x=1/VN 而 得 到 。 这 种 处 理 手段 是 典型 
的 ， 我 们 将 在 后 面 看 到 许多 例子 。 
习题 4.21 当 x-~*0 时 ， 将 ln(1 -x+ ARFA). 
习题 4.22 给 出 关于 ln(Nz + AN5) 的 一 个 渐 近 展开 式 ， 其 中 Qa 和 为 正常 数 ， 且 a> 8p。 


习题 4.23 给 出 关于 Nin WP MERIR. 
习题 4.24 KAHAR, ite! + cos(0.1) - nOOHH, Æ al10*, 
习题 4.25 证 明 : 


seo 102 030 405 060 708 091 011---474 849 50… 

准确 到 10-'%%。 你 还 能 再 多 预测 多 少 位 数 ? 给 出 一 般 性 的 结论 。 
非 收 化 渐 近 级 数 。 任 何 收敛 级 数 都 能 导出 一 个 完全 的 渐 近 有 逼近， 但 反 
一 个 渐 近 级 数 完全 可 以 是 发 散 的 ， 注 意 到 这 一 点 很 重要 。 例 如 ， 我 们 可 能 有 一 个 函数 


k! 
fN) ~ ÈN 
> 


In(N+VN) = In N + 一 一 








这 意味 着 〈 比 如 说 ) 
2 {1 \ 
FN) = le NW aa + OF) 
尽管 该 函数 的 无 限 和 是 不 收敛 的 。 为 什么 允许 这 么 做 呢 ? 如 果 我 们 从 展开 式 中 取 固 定 个 数 的 
Hi, AN> 上 时， 定义 中 所 隐 含 的 相等 是 有 意义 的 。 也 就 是 说 ， 我 们 有 一 系列 越 来 越 好 的 
逼近 ， 但 它们 开始 给 出 有 用 信息 的 点 却 变 得 越 来 越 大 。 
Stirling 公 式 。 在 发 散 的 渐 近 级 数 中 ， 一 个 最 著名 的 例子 就 是 Stirling 公 式 ， 该 公式 是 这 样 
开始 的 


NINN lia (1) 
N: 2an( ©) (1+ oN SNF +o) 
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在 4.6 节 中 ， 我 们 将 利用 一 个 方法 来 指出 该 公式 是 如 何 导 出 来 的 ， 该 方法 能 给 出 一 个 按 N 的 
PREREZE HERRE) 级 数 。 在 实际 中 ， 该 级 数 发 散 的 这 一 事实 并 不 重要 ， 因 为 
它 的 前 几 项 能 够 给 出 极为 准确 的 估计 ， 正 如 表 4-3 所 阐明 的 ， 我 们 在 后 面 将 进一步 详细 讨论 。 
目前 ， 严 格 地 说 ， 大 0O- 记 号 中 所 暗示 的 常数 意味 着 这 样 的 一 个 公式 并 不 能 就 的 具体 值 给 
出 完整 的 信息 ， 因 为 该 常数 是 任意 的 〈 或 未 指定 的 )。 但 原则 上 ， 我 们 总 能 借助 于 渐 近 级 数 
的 资源 ， 并 通过 证 明 关 于 这 个 常数 的 特定 的 界 来 克服 这 一 缺点 。 例 如 我 们 能 够 证 明 : 对 所 有 
的 N>1， 
N\"(, Ox 

mV (1+ TaN) 
其 中 0< 6<1 (例如 参见 [1])。 和 在 这 个 例子 中 的 情况 一 样 ， 在 一 般 情 况 下 ， 假 定 大 0- 记 号 
中 所 隐 含 的 常数 较 小 是 安全 的 、 而 不 必 寻 找 精确 的 误差 界 。 一 般 地 ， 如 果 所 需要 的 精度 更 高 
一 些 ， 那 么 对 于 足够 大 的 N， 浙 近 级 数 中 的 下 一 项 将 最 终 能 提供 这 个 精度 。 


表 4-3 关于 NI 的 Stirling 公 式 的 精度 


N N! SENIN isa) 绝对 误差 相对 误差 
Ve] \ 12N 288N?) 一 

1 1 1.002 183 625 0.002 2 107? 
2 2 2.000 628 669 0.000 6 10°? 
3 6 6.000 578 155 0.000 6 1074 
4 24 24.000 988 29 0.001 1074 
5 120 120.002 545 7 0.002 10 
6 720 720.008 870 1 0.009 10°* 
7 5 040 5 040.039 185 0.039 107-5 
8 40 320 40 320.210 31 0.210 107 
9 362 880 362 881.330 7 1.33 1075 

10 3 628 800 3 628 809.711 9.71 1075 


习题 4.26 利用 非 渐 近 形式 的 Stirling 公 式 ， 给 出 用 NVRN14 来 估计 N4( N ] 时 的 一 
NBER. l 

绝对 误差 。 正 如 上 面 所 定义 的 ， 一 个 有 限 的 浙 近 展开 式 只 有 一 个 大 0- 项 ， 我 们 下 面 将 要 
讨论 的 是 ， 如 何 进行 各 种 标准 操作 而 保持 这 一 性 质 不 变 。 如 果 可 能 ， 我 们 将 力求 以 f(N) = 
EN) + O(h(N)) 的 形式 来 表示 最 终 的 答案 ,从 而 使 由 大 0- 记号 所 表示 的 未 知 误差 ， 当 N 增 加 时 ， 
在 绝对 意义 下 变 得 可 以 忽略 不 计 (这 也 意味 着 hCN) = o(D) )。 在 一 个 渐 近 级 数 中 ， 我 们 可 以 通 
过 在 g(N) 中 包含 更 多 的 项 ， 并 取 较 小 的 h(N) 来 获得 较 准 确 的 估计 。 例 如 ， 表 4-4 指 出 如 何 向 调 
和 数 的 产 近 级 数 中 加 入 项 ， 以 给 出 更 准确 的 估计 。 我 们 在 后 面 将 指出 这 个 级 数 是 如 何 导出 的 。 
和 Stirling 公 式 一 样 ， 该 级 数 是 一 个 发 散 的 渐 近 级 数 。 

相对 误差 。 我 们 总 可 以 用 另外 一 种 形式 f(N) = gCN)(1 + OUN) 来 表示 估计 ， 其 中 HKN) = 
o(1)。 在 菜 些 情况 下 ， 一 个 绝对 误差 可 能 随 着 N 的 增 大 而 增 大 ， 对 此 我 们 也 只 能 表示 认可 。 相 
对 误差 将 随 着 N 的 增 大 而 减 小 ， 但 当 我 们 试图 计算 AN 时 ， 绝 对 误差 未 必 是 “可 忽略 不 计 的 ”。 
当 f(N) 是 指数 增长 的 情况 时 ， 我 们 会 经 常 遇 到 这 种 类 型 的 估计 。 例 如 ， 表 4-3 给 出 了 Stirling 公 
式 中 的 绝对 误差 和 相对 误差 。Stirling 展 开 式 的 对 数 给 出 了 一 个 关于 InN! 的 新近 级 数 ， 其 绝对 
误差 非常 小 ， 如 表 4-5 所 示 。 
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4-4 调和 数 的 渐 近 估计 


1 1 





N Hy inN +y +N * Ton? 
10 2.928 968 3 2.302 585 1 2.879 800 8 2.929 800 8 2.928 967 4 
100 5.187 3775 4.605 170 2 5.182 3859 5.187 385 9 5.187 3775 
1 000 7.485 4709 6.907 755 3 7.484 9709 7,485 4709 7.485 4709 
10 000 9.787 606 0 9.210 340 4 9.787 5560 9.787 606 0 9.787 606 0 
100 000 12.090 146 1 11,512 925 5 12.090 141 1 12.090 146 1 12.090 146 1 
1 000 000 14.392 726 7 13.815 510 6 14.392 726 2 14.392 7267 14.392 726 7 

34-5 ”Stirling 公 式 中 关于 InNi 的 绝对 误差 
N InN! [N+ }\ InN- N +n + 误差 
\ 2) 12N 
10 15.104 413 15.104 415 107° 
100 363.739 375 556 363.739 375 558 107” 
1000 5 912.128 178 488 163 5 912.128 178 488 166 1075 
1000 82 108.927 836 814 353 345 5 82 108.927 836 814 353 345 8 10°" 


我 们 通常 只 是 在 处 理 关于 N 的 指数 级 大 量 时 才 使 用 “相对 误差 "， 如 NI! 或 Catalan 数 。 在 
算法 分 析 中 ， 这 样 的 量 通常 出 现在 计算 过 程 中 的 中 间 阶 段 ; 以 后 ， 诸 如 将 这 样 的 两 个 量 相 除 
或 者 取 对 数 的 运算 等 ， 就 把 我 们 又 带 回 到 绝对 误差 的 范畴 ， 对 于 应 用 中 我 们 所 关注 的 大 多 数 
的 量 而 言 都 是 如 此 。 

当 我 们 利用 累积 计数 法 计算 平均 值 的 时 候 ， 这 种 情况 是 很 正常 的 。 例 如 在 第 3 章 中 ， 为 了 
求 出 二 叉 树 中 的 叶子 数 ， 我 们 计算 出 了 所 有 树 中 的 树叶 总 数 ， 然 后 再 将 其 除 以 Catalan 数 。 在 
这 种 情况 下 ， 我 们 能 够 计算 出 一 个 准确 的 结果 ， 但 对 许多 其 他 问题 而 言 ， 通 常 是 将 两 个 渐 近 
估计 相 除 。 事 实 上 ， 这 个 例子 益 明 了 我 们 利用 崭 近 性 质 的 一 个 主要 原因 。 在 一 棵 树 中 ， 比 如 
说 1000 个 结 点 的 树 中 ， 满 足 某 个 性 质 的 结 点 的 平均 个 数 无 疑 将 小 于 1000， 因 此 我 们 就 有 可 能 
利用 生成 函数 导出 以 Catalan 数 和 二 项 式 系数 表示 的 这 个 数 的 一 个 准确 公式 。 但 要 计算 出 这 个 
Be (可 能 会 涉及 乘 以 和 除 以 像 2 或 1000! 这 样 的 数 ) ， 如 果 不 利用 渐 近 性 质 ， 可 能 会 是 一 件 
相当 复杂 的 事情 。 在 下 一 节 中 ， 我 们 将 给 出 操作 渐 近 展开 式 的 基本 技巧 ， 这 些 技巧 将 使 我 们 
能 导出 这 些 情 况 下 的 精确 渐 近 估计 。 

表 4-6 给 出 了 组 合 数学 及 算法 分 析 中 经 常 遇 到 的 一 些 特殊 数列 的 渐 近 级 数 。 这 些 逼 近 中 的 
大 多 数 都 作为 操作 和 导出 渐 近 级 数 的 例子 在 后 面 进行 了 推导 。 在 本 书 中 后 面 我 们 将 经 常 引 用 
这 些 展 开 式 ， 因 为 在 研究 算法 的 性 质 时 ， 数 列 本 身 的 出 现 是 件 自然 而 然 的 事情 ， 因 此 ， 渐 近 
展开 式 为 我 们 精确 地 量化 算法 的 性 能 特征 和 恰当 地 进行 算法 比较 提供 了 一 种 方便 的 方式 。 


表 4-6 ”一 些 特殊 权 的 渐 近 展开 式 (N>0) 


1 
MÆ (Stirlinga) NT 到 ) (ug RN “sent ow) 


in N= beta N+invian + O(s) 


Lt ,of 
H, <InN — ofS 
welnN+y +5 12N ANNT) 








OF ih 3B it 107 

















(8) 

二 项 式 系数 人 -所 (so 人 2 , k=O) 
22 (1\\ paN 
zrl ,上 7 +001) 

2N 1 -KIN 1 
二 项 式 分 布 的 正 态 通 近 (ye) ar a) 
-ARPAN (za -p a AS sof), PN 

N] (N-D! ag 
第 一 类 Stirling 数 p | ~ (k-1)! (nN). k= O01) 

N) k“ 
第 二 类 Stirling 数 l }- 页 ， k=O(i) 
(eB FIM =D" an -2+0(4™)) 

1 /2 (1) 

Catalan 数 Ty = wal w - ioi) 
SAMRE Fet" KP oe m5 





习题 4.27 假设 在 大 0O-- 记 号 中 所 隐 仿 的 常数 C 的 绝对 值 小 于 10。 给 出 由 绝对 公式 Hy = InN 
+ y+ OUN) 和 相对 公式 Hy = InN(1 + O(1/logN)) 所 隐 食 的 Hiooo 的 特定 的 界 。 
习题 4.28 假设 在 大 O- 记 号 中 所 隐 仿 的 常数 C 的 绝对 值 小 于 10。 给 出 由 相对 公式 


1_(2N) __4" (1 
wail w) -To 全 
所 隐 含 的 第 10 个 Catalan 数 的 特定 的 界 。 

习题 4.29 假设 对 于 N> N, 确定 了 f(N) 的 一 个 收敛 的 表示 式 
IN X aN 


其 中 是 一 个 固定 的 常数 。 证明: 对 任意 的 M>0， 都 有 
CN) = > a, N~ +0O(N") 


0< k<M 





习题 4.30 构造 一 个 函数 (满足 Jm~ 了 ne。 
30 


4.3 渐 近 展开 式 的 操作 


我 们 使 用 渐 近 级 数 ， 尤 其 是 有 限 展 开 式 ， 不 仅仅 是 因为 它们 提供 了 一 种 简洁 的 方法 ， 在 

对 精度 的 某 种 控制 下 表示 逼近 的 结果 ， 而 且 还 因为 ， 它 们 相对 比较 容易 操作 ， 它 们 能 使 我 们 

进行 复杂 的 操作 的 同时 却 仍然 使 用 简单 的 表达 式 。 这 是 因为 我 们 很 少 坚持 使 用 正在 研究 的 量 

的 完全 渐 近 级 数 ， 而 是 只 对 展开 式 中 的 前 几 项 进行 操作 ， 这 就 使 我 们 在 进行 每 一 次 计算 的 时 

候 ， 都 可 以 抛弃 那些 不 太 重要 的 项 。 因 此 在 实际 中 ， 我 们 可 用 只 包含 几 项 的 规范 形式 ， 来 精 | 

确 地 描述 大 量 的 函数 。 170 
大 O- 符 号 的 基本 性 质 。 根 据 定义 很 容易 证 明 大 量 的 基本 恒等式 ， 这 些 关 系 使 我 们 能 够 更 
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容易 地 去 处 理 涉 及 大 0O- 符 号 的 表达 式 。 这 些 关系 都 是 一 些 直观 的 规则 ， 其 中 的 一 些 我 们 已 经 
在 默默 地 使 用 了 。 在 这 些 恒 等 式 中 ， 我 们 用 箭头 来 表示 : 任何 在 箭头 左 端的 表达 式 都 可 以 用 
箭头 右 端 的 表达 式 来 简化 : 

FCN) > O(F(N)) 

cO(f(N)) > OFN) 

O(cf(N)) > O(F(N)) 

F(N) - 8(N) = O(h(N) —> FCN) = 8(N) + O(N)) 

OF(N))O(B(N)) > OCF(N)B(N)) 

O(F(N)) + OND) > O(g(N)) 车 f(N) = O(g(N)) 


严格 地 说 ， 使 用 方程 左 端的 大 0- 符 号 是 不 严格 的 。 我 们 的 确 经 常 把 式 子 写成 诸如 Ne +N + 
O(1) = N? + O(N) = OO 的 形式 ， 从 而 避免 使 用 像 上 述 箭头 符号 那样 形式 的 操作 所 带 来 的 不 
便 , 但 是 我 们 绝 不 能 使 用 方程 N= O(N) FIN’ = O(N”)， 来 得 到 一 个 莞 雇 的 结论 N = MY 。 

对 任何 一 个 特定 的 函数 ， 大 0- 记 号 实际 上 给 出 了 多 种 可 能 的 描述 方法 ， 但 习惯 的 做 法 是 
利用 上 述 规 则 ， 写 出 一 个 不 带 常数 的 简单 的 规范 式 。 我 们 可 以 写成 O(N?)， 而 从 不 去 写成 
NOIN) 或 2O(V) KOON) 等 ， 尽 管 这 些 式 子 都 是 等 价 的 。 习 惯 上 我 们 把 一 个 未 指定 的 常数 写 
成 O(D) ， 而 不 是 其 他 形式 ， 如 C(3) 等 。 而 且 我 们 写 O(logN) 时 也 不 指定 对 数 的 底数 〈 当 底数 为 
常数 时 )， 由 于 大 O- 符 号 的 原因 ， 指 定 底数 相当 于 给 出 了 一 个 不 相关 的 常数 。 

通常 我 们 能 用 一 种 简易 的 方式 ， 通 过 一 种 或 几 种 基本 操作 来 减少 对 渐 近 展开 式 的 操作 ， 
我 们 将 依次 进行 考虑 。 在 我 们 所 讨论 的 例子 中 ， 通 常 考虑 带 有 一 项 、 两 项 或 三 项 的 级 数 (大 
O- 项 除外 )。 当 然 ， 我 们 所 用 的 方法 也 适用 于 较 长 的 级 数 。 

习题 4.31 当 N 一 % 时 ， 证 明 下 列 式 子 成 立 或 者 不 成 立 : 

e = O(N’), e" =0(2"), 2 = ofa}. N™* = Ole ) 

化 简 。 在 进行 渐 近 分 析 时 ， 我 们 必须 意识 到 一 个 主要 原理 : 一 个 渐 近 级 数 实 际 上 只 精确 
到 它 的 O- 项 ， 因 此 任何 较 小 的 项 (在 渐 近 的 意义 上 ) 都 完全 可 以 被 舍弃 。 例 如 ， 表 达 式 InN 
+ O(1) 与 表达 式 InV + y+ O(1) 在 数学 上 是 等 价 的 ， 但 前 者 更 为 简单 。 

替换 。 最 简单 和 最 常见 的 渐 近 级 数 是 通过 适当 地 选择 变量 的 值 ， 并 将 其 代 人 泰勒 级 数 的 
展开 式 (如 表 4-2 中 的 泰勒 展开 式 ) 中 、 或 代入 其 他 渐 近 级 数 中 而 导出 来 的 。 例 如 ， 通 过 在 几 
何 级 数 


atx? 4000) (x +0) 
-x 


中 取 x = —1/N, RITR 
1 1 1 


1 \ 
— + 0! 一 一 
N+1 N NM \n’) 





(N => œ) 


类 似 地 ， 


Matty tt Of 一 
N 2N2 6N KN (N) 


习题 4.32 给 出 关于 erw "2 的 一 个 渐 近 展开 式 ， 准 确 到 O(V )。 





Dem, FSO), RA “SE” ERRER, WERTER R EH D 
来 重 写 函数 ， 使 之 能 按照 相对 误差 或 绝对 误差 的 形式 来 明确 地 反映 逼近 程度 。 例 如 对 于 较 大 
IN, RALIN + N) 显然 非常 接近 于 1/M ， 我 们 可 以 很 容易 地 通过 重 写 函数 将 这 一 事实 明确 
地 表示 出 来 

1 1 1 
Ni+N N?141/N 


如 果 我 们 遇 到 的 是 一 个 复杂 的 函数 ， 共 逼近 值 不 能 立即 看 出 来 的 话 ， 那 么 我 们 可 能 需要 一 个 
简短 的 试 算 误差 的 过 程 。 17 
乘法 。 将 两 个 渐 近 级 数 相 乘 ， 只 不 过 是 将 它们 逐 项 相 乘 ， 然 后 再 合并 各 个 项 。 例 如 


n 


(Hy) = (nx 十 》 十 oi))(inn 十 》 十 of-,)} 


(anny? rymN+o( 2m) 


+(y InN+y? +o( 方 ] 


[logN\Y ,yl of 1) 
+(of 本 Era) 


= (ln N} +2y in N +y’ +0{ EX) 





在 这 个 例子 中 ， 乘 积 的 绝对 渐 近 “精度 ” 要 比 两 个 因子 的 绝对 渐 近 精度 低 一 一 其 结果 只 准确 
到 O(logN/N)。 这 种 情况 是 正常 的 ， 我 们 通常 在 开始 推导 时 ， 所 取 的 渐 近 展开 式 中 的 项 数 应 该 
比 结果 中 所 需要 的 项 数 多 一 些 。 我 们 常常 采取 一 个 两 步 的 过 程 : 先进 行 计 算 ， 如 果 结 果 没 有 
达到 所 需要 的 精度 时 ， 则 需 精确 地 表示 原来 的 两 个 因子 ， 然 后 再 重新 计算 。 

习题 4.33 计算 (已 六 ， 准 确 到 OUHMN)， 然 后 再 准确 到 o(MN)。 

作为 另 一 个 例子 ， 我 们 来 估计 NN 的 阶乘 的 平方 : 


mw-( .人 (iof È) 


Nj 
ant ‘(us of 4) 
mM j Own) 
因为 
(AV aol Iso LV of 
(of =1+20 Fj + ORF] 1+0 7) 


除法 。 为 了 计算 两 个 渐 近 级 数 的 商 ， 我 们 通常 是 对 分 母 进行 分 解 ， 并 将 其 重新 写成 (1 - 
x) 的 形式 ， 其 中 x 是 某 种 符号 的 表达 式 且 x 趋 于 0， 然 后 将 其 展开 成 一 个 几何 级 数 ， 再 与 分 子 相 


mS 
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F. 例如， 为 了 计算 tanx 的 一 个 渐 近 展开 式 ， 我 们 可 以 将 关于 sinx 的 级 数 除 以 关于 cosx 的 级 数 ， 
过 程 如 下 : 

sinx x-x /6+O(x’) 

cosx 1-x2/24+0(x*) 





tanx = 


1 
= (x - x? /6 + O$) — M 
a ES 


=(x-x°/6+4+ O(x*))\(+ x? /2 + 0x) 
=x+x°/3+0(x°) 
习题 4.34 导出 一 个 关于 cotx 的 渐 近 展开 式 ， 准 确 到 O(x9。 
习题 4.35 导出 一 个 关于 x/(e” 一 1) 的 渐 近 展开 式 ， 准 确 到 O()。 


作为 另外 一 个 例子 ， 我 们 考虑 关于 中 央 二 项 式 系数 { N ] 的 逼近 。 将 级 数 (根据 上 面 的 
结果 ) 


weal OW ep 
NIN!= 2a —} (ro 全 
除 以 级 数 
SON Geel 2) 
(QN)!=2V aN rz (105) 
其 结果 为 


2M 22 /yl 
的 Iarll) 
将 此 结果 乘 以 1/CN + 1)=U/N- /N+ O(N’), 将 得 到 表 4-6 中 关于 Catalan 数 的 逼近 。 
指数 /对 数 。 在 涉及 圭 或 乘积 的 渐 近 性 时 ， 把 Fo) 写成 exp{ln(F(oD))} 常 常 是 简便 地 进行 分 
析 的 开始 。 例 如 ， 利 用 Stirling 近 似 推 性 Catalan 数 的 渐 近 性 的 另 一 个 方法 可 以 写成 


1 
N+1 





(a = exp{In((2N)!) -2InN!-In(N +1)} 


exo (2 į z In(2N) -2N + In V27 + of —} 


alyd be (1\_ {1)\ 
2 N+>)InN+2N 2InV2r +0) inv +0(y) 


= ex ( +l\n Zig -InV2nm + (1) 
= ex z) "2-3" InJ2n on) 


ERE F He4-6F KF Catalan Hiei. 
习题 4.36 继续 对 Catalan 数 进行 展开 ， 使 其 准确 到 O(N )。 


3N 
习题 4.37 求 一 个 关于 |{ wj w+ 的 渐 近 展开 式 。 


习题 4.38 求 一 个 关于 (3N)M(VI 的 渐 近 展开 式 。 
另 一 个 关于 指数 /对 数 操作 的 标准 例子 是 如 下 关于 e 的 通 近 : 
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推导 过 程 中 的 最 后 一 步 将 在 后 面 给 出 证 明 。 此 外 ,通过 考虑 当 N (比如 说 ) 为 一 百 万 或 十 亿 时 ， 
如 何 计算 这 个 展开 式 的 值 ， 我 们 就 能 意识 到 渐 近 分 析 的 实用 性 了 。 


习题 4.39 (1-2) 的 近似 值 是 多 少 ? 


习题 4.40 wut (1-22) 的 一 个 三 项 渐 近 展开 式 。 


习题 4.41 假设 银行 存单 的 利息 是 “ 按 天 增加 的 "， 也 就 是 说 ， 对 365 天 而 言 ， 每 天 都 将 逢 
息 的 1/365 加 入 到 存单 上 。 对 于 一 个 $10 000 的 存单 ， 如 果 按 天 增加 的 利率 为 10% 的 话 ， 那 么 与 
按 年 付 息 所 应 付 的 $1000 相 比 ， 一 年 后 银行 付 的 利息 是 多 少 ? 

合成 。 通过 代 人 指数 展开 式 ， 显然 有 

e" 14-4 0{ 
但 此 式 与 

OUIN) © {i 了 

e ) 1+OU W) 
稍微 有 些 不 同 ， 后 者 是 由 刚刚 给 出 的 两 个 推导 所 采用 的 。 在 这 个 例子 中 ， 将 O(UN 代 入 到 指 
数 展开 式 中 仍然 是 有 效 的 : 


e2du =1+O 


由 于 我 们 经 常 处 理 一 些 相 对 较 短 的 展开 式 ， 所 以 也 经 常 对 那些 看 起 来 相当 复杂 的 函数 设计 一 
些 简单 的 渐 近 估计 ， 设 计 方 法 只 是 简单 地 进行 寡 级 数 代入 。[7] 中 给 出 了 控制 这 种 操作 的 具体 
条 件 。 

习题 4.42 在 不 丢失 渐 近 精度 的 条 件 下 ， 化 简 渐 近 展 开 式 exp{fl + LUN + OON} 

习题 4.43 求 一 个 关于 In(sin((N!) 0) 的 渐 近 估计 ， 准 确 到 O(LIN)。 

习题 4.44 ”证明 : sin(tan(1/N)) ~ LN 和 tan(sin(1/N)) ~ HN， 然后 求 sin(tan(1/N)) — tan(sin(1/N)) 
增长 的 阶 数 。 

习题 4.45 求 一 个 关于 Hi 的 渐 近 估计 ， 准 确 到 O(1/N)， 其 中 Tw 是 第 N 个 Catalan 数 。 
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UE 


wt. Rik A wit RAK 
ye xtc x? +x? +O(x*) 

我 们 省 略 了 常数 项 和 一 次 项 的 系数 以 便于 简化 计算 。 该 展开 式 可 以 通过 一 个 自 举 的 过 程 变 成 
ae ， 该 过 程 类 似 于 第 2 章 中 用 于 估计 递归 逼近 解 的 过 程 。 首 先 ， 我 们 必 
x= Oy) 
因为 当 x 一 0 时 ，x/y = x/(x + cz2 + OO2)) 是 有 界 的 。 将 其 代入 原始 的 展开 式 中 ， 就 意味 着 

y=x+00 或 x=y+00) 
再 将 此 式 代 入 原始 展开 式 中 ， 我 们 有 
y=x+cxy+ O+ OO 或 x=y- cy + 00") 
我 们 每 一 次 将 x 回 代 到 原始 展开 式 中 时 ， 都 能 得 到 另外 一 项 。 继 续 回 代 ， 我 们 有 
y=xXtcly -cy+O) + ey — cy + OO) +O0) 或 
x=y-Gy’ +(2c2 -Cc3)y + OU") 


习题 4.46 设 a 定义 为 方程 


n=a,e" (n>) 


的 唯一 正 根 。 求 关于 a, 的 一 个 渐 近 售 计 ， 准 确 到 0O(1/(ogn) )。 
习题 4.47 REAA 


Y= +CX+C x +x? + O(x’) 
的 逆 (提示: 取 z= (O 一 oc). 
4.4 有 限 和 的 渐 近 逼近 


常常 能 够 把 一 个 量 表 示 成 有 限 和 ， 因 此 ， 我 们 需要 能 够 准确 地 估计 这 个 有 限 和 的 值 。 在 
第 2 章 已 经 看 到 ， 某 些 和 可 以 被 准确 地 求 出 值 来 ， 不 过 在 更 多 的 情况 下 准确 值 却 不 是 容易 得 到 
的 。 再 有 ， 可 能 出 现 这 种 情况 : 我 们 所 知道 的 只 是 那些 被 求 和 的 量 本 身 的 估计 值 。 

在 [6] 中 ，De Bruijn 考 虑 了 这 种 问题 的 一 些 细节 。 他 概括 了 经 常 发 生 的 一 些 不 同 的 情形 ， 
主要 考虑 的 常常 是 和 中 的 项 在 值 上 变化 剧烈 的 情况 。 在 这 一 节 我 们 扼要 讨论 一 些 初 等 的 例子 ， 
不 过 重点 侧重 于 欧 拉 - 麦 克 劳 林 公式 ， 它 是 用 积分 估计 求 和 的 基本 工具 。 我 们 指出 欧 拉 - 麦克 
劳 林 公式 如 何 给 出 调和 数 以 及 阶乘 (Stirling 公 式 ) 的 渐 近 展开 。 

在 本 章 的 其 余部 分 ， 我 们 考虑 欧 拉 - 麦 克 劳 林 求 和 的 一 些 应 用 ， 特 别 是 重点 放 在 那些 涉及 
以 二 项 式 系 数 为 例 的 经 典 “二 元 ”函数 的 被 加 项 上 。 我 们 将 会 看 到 ， 这 些 应 用 在 求 和 范围 的 
不 同 部 分 所 用 的 求 和 估计 是 不 同 的 ， 但 是 ， 它 们 最 终 还 是 依赖 于 通过 欧 拉 -麦克 劳 林 求 和 的 方 
法 使 用 积分 来 对 一 个 和 式 进行 估计 。 在 这 方面 更 多 的 细节 和 相关 的 课题 可 以 在 [2]、[3]、[6]、 
[12] 和 [19] 中 找到 。 

确定 尾部 的 界限 。 当 有 限 和 中 的 项 急速 递减 的 时 候 ， 通 过 利用 无 限 和 通 近 该 有 限 和 并 算 
出 其 无 限 尾部 的 大 小 的 界 ， 可 以 得 到 这 个 有 限 和 的 渐 近 估计 。 下 面 的 例子 是 求 “ 错 位 ”排列 
( 见 第 6 章 ) 的 个 数 的 经 典 例子 ， 它 解释 了 这 样 一 种 观点 
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N! CD _ Mei_R R, -NSCD- 
1 k “2 N 其 中 N= 5 A 


现在 我 们 可 以 通过 利用 尾部 各 项 的 界 来 确定 尾部 Ry 的 界 

1 1 1 1 
< 一 一 十 -一 一 十 一 一 十 … — 

N+1 (N+1° (N+)? N 

因此 这 个 和 为 Nle -+ O(I)。 在 这 种 情况 下 ， 收 敛 是 如 此 的 快 ， 以 至 于 能 够 证 明 其 值 总 是 等 
于 Nie -经 舍 人 得 到 的 最 近 的 整数 。 

所 涉及 的 无 限 和 收敛 到 一 个 常数 ， 但 是 对 于 这 个 常数 可 能 不 存在 显 式 表达 式 。 不 过 ， 快 
速 收敛 通常 意味 着 以 比较 大 的 准确 度 计 算 它 的 值 是 容易 的 。 下 面 的 例子 与 研究 trie 树 ( 见 第 7 
章 ) 过 程 中 出 现 的 和 有 关 : 


1 1 1 
—_ = V_____R R, = Y¥—— 
< ty 2" -1 rs y 其中 ~ dai 


IRy! 


此 时 我 们 有 





1 1 
0< Ry < 了 


因此 ， 常 数 1 + 1/3 + 1/7 + 1/15 + … = 1.6066... 是 该 有 限 和 的 极 好 的 近似 。 将 这 个 常数 的 值 计 
算 到 任意 合理 的 准确 度 并 不 困难 。 

尾部 的 使 用 。 当 有 限 和 中 的 项 快速 递增 的 时 候 ， 其 最 后 一 项 常常 足以 给 出 整个 和 的 一 个 
好 的 渐 近 估计 。 例 如 ， 


1 
A 4 > x - mi(i+o(5)] 
o< <N N Ox k <N-2 N! \N) 


后 面 的 等 式 的 得 出 是 因为 在 这 个 和 中 存在 N - 1 项 ， 其 中 的 每 一 项 都 小 于 NGN - 1))。 

习题 4.48 给 出 Zi okcwlL/( 忆 BO) 的 一 个 渐 近 估计 。 

习题 4.49 给 出 Zooiewl/ 忆 的 一 个 渐 近 估计 。 

习题 4.50 给 出 Zuckcw24(25+ 1) 的 一 个 浙 近 估计 。 

习题 4.51 给 出 Zuckcw24 的 一 个 渐 近 估计 。 

用 积分 逼近 和 。 更 一 般 地 ， 我 们 期 望 应 该 能 够 用 积分 来 估计 一 个 和 的 值 ， 从 而 能 够 利用 
已 知 积分 的 广泛 知识 。 

当 我 们 使 用 

reDdz 来 估计 D/H 


a <k<b 
的 时 候 ， 误 差 的 幅度 有 多 大 ? 这 个 问题 的 答案 依赖 于 函数 /(x) 有 多 么 光滑 。 本 质 上 ， 在 a 和 4b 
之 间 b - a 的 每 个 单位 区 间 中 我 们 都 用 /(k) 来 估计 f(x)。 令 
ô, = max 1 f(x)- fE) 


表示 每 个 区 间 中 的 最 大 误差 ， 我 们 可 以 得 出 对 总 误差 的 一 个 粗略 的 近似 : 


f(b) = rcodr+A， (a < 5 


ag k<b ag k<b 
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如 果 这 个 函数 在 整个 区 间 [a, DAL AE BRA. ABA, AREMARKI (a) -~ 
fb。 例如， 对 于 调和 数 ， 该 方法 给 出 估计 


1 1 
Hy - J pof peters 
其 中 IAL< 1 - UN， 这 是 Hw ~ In N 的 一 个 简单 的 证 明 ; 而 对 于 N!， 这 种 方法 则 得 到 估计 


In N!= nt- Inxdx+A=NInN-N+1+A 
N 


1< k< 
其 中 ， 对 于 in MAIA <in N， 这 是 In N! ~ N InN - N 的 一 个 简单 的 证 明 。 这 些 估计 的 准确 度 依 
赖 于 在 通 近 误差 时 的 仔细 程度 。 
误差 项 的 更 精确 的 估计 取决 于 国 数 ,fo) 的 导数 。 由 此 导致 使 用 欧 拉 -麦克 劳 林 求 和 公式 所 
得 到 的 渐 近 级 数 ， 它 是 渐 近 分 析 中 最 为 强大 的 工具 之 一 。 


4.5 欧 拉 -麦克 劳 林 求 和 


在 算法 分 析 中 ， 用 积分 来 和 逼 近 和 时 有 两 种 不 同 的 方法 。 在 第 一 种 情况 下 ， 我 们 有 一 个 定 
义 在 国定 区 间 上 的 国 数 ， 并 且 我 们 是 在 沿 该 区 间 一 组 递增 的 点 上 抽取 函数 值 来 求 和 的 ， 随 着 
步 长 越 来 越 小 ， 和 与 积分 的 差 值 将 收敛 到 零 ， 这 类 似 于 古典 的 黎 曼 积分 。 在 第 二 种 情况 下 ， 
我 们 有 一 个 固定 的 函数 和 一 个 固定 的 离散 步 长 ， 随 着 积分 区 间 变 得 越 来 越 人 ， 和 与 积分 的 差 
值 将 收敛 到 一 个 常数 。 我 们 将 分 别 考虑 这 两 种 情况 ， 尽 管 它们 都 体现 了 同一 个 基本 方法 : 一 
种 要 追溯 到 18 世 纪 的 方法 。 

欧 拉 -- 麦 克 劳 林 求 和 公式 的 一 般 形式 。 这 个 方法 是 以 分 部 积分 为 基础 的 ， 并 且 要 涉及 到 伯 
努 利 数 (和 伯 努 利多 项 式 ) 一 一 这 在 3.13 节 中 已 描述 过 了 。 我 们 从 下 面 的 公式 开始 


edr = {x- Tg) -f x-4) g'ad 
o TZO ThT?) 





这 个 式 子 是 通过 对 g(x) 分 部 积分 ， 并 “聪明 地 ”选择 积分 常数 x5 BOTAN. 在 这 个 
式 子 中 取 g(x) =f(x + 有， 我 们 将 得 到 


# vay FEDAS Hea) p 
[Fada = SEATS | 6 (0-5) d 


与 以 往 一 样 ， 其 中 {x} = x -|z| 表 示 x 的 小 数 部 分 。 取 所 有 大 于 等 于 o 且 小 于 8 的 k， 并 将 这 些 
式 子 相 加 得 


or Ab- 人 (oo 


这 是 因为 除了 a 和 5b 以外，f(h) 对 于 k 的 每 个 值 都 出 现在 了 两 个 式 子 中 。 于 是 重新 整理 这 些 项 ， 
我 们 将 得 到 和 与 其 对 应 的 积分 之 间 的 一 个 精确 的 关系 : 


_ KORONPI PRESI 
D> fW- [row + Í (四 -了 /codr 


为 了 得 知 这 个 逼近 到 底 有 多 好 ， 需 要 能 够 对 尾部 那个 积分 找到 一 个 界 。 我 们 本 来 也 可 以 像 前 
一 节 末 尾 所 做 的 那样 ， 通 过 找到 一 个 绝对 的 界 来 达 此 目的 ， 但 结果 表明 ， 我 们 可 以 迭代 这 个 





过 程 , 通常 只 剩 下 一 个 非常 小 的 误差 项 , 这 是 因为 f(x) 的 导数 会 变 得 越 来 越 小 (作为 N 的 函数 )， 
和 /或 因为 同样 也 包含 在 积分 中 的 {x} 的 多 项 式 变 得 越 来 越 小 。 


定理 4.2 ( 欧 拉 一 麦克 劳 林 求 和 公式 ， 第 一 种 形式 ) ” 设 f(X) 是 定义 在 区 间 [a, bjt khk 
数 ， 其 中 a 和 b 为 整数 ， 并 假定 当 1 <i<2m 时 ,导数 M(x) 存在 且 连 续 ， 其 中 m 是 一 个 
国定 的 常数 ， 则 


_ f@+ fe) FO) ， (2i-1) 
FW) = ffenars SOs > Beh MC, + Re 


RPB RAZER, RART, LAA 


| Byn | (2m) (2m) 
IRIS aC fs (x)ldx < afi (x) ldx 


On 
证 明 “我们 利用 分 部 积分 和 伯 努 利多 项 式 的 基本 性 质 来 继续 进行 上 面 的 讨论 。 对 任意 一 个 
在 [0, 1] 中 可 微 的 函数 g(x) 以 及 任意 的 ;>0， 我 们 可 以 对 8(CDB%+ ;9 进行 分 部 积分 得 
f 80B; War = Ba Deh, ~ [8 Ba (dx 


现在 由 3.13 节 我 们 知道 81,1(x) = (i+ 1)Bi(x)， 所 以 两 边 除 以 (i + 1)! 后 ， 我 们 得 到 一 个 递 推 关系 : 


B, Roay — Bia (x) 一 此 L Œ) iy 
人 sc TO Gy oe Jo -frog spre 


再 从 i= 0 起 开始 迭代 ， 将 形式 地 给 出 


B. B. 
[godr = B, n H g(x x, - o) ' 1 Bo " 


—2— g'(x)|, + g" - 


其 中 对 于 无 限 可 导 的 函数 而 言 ， 该 展开 式 可 以 展开 到 任意 多 个 项 。 更 确切 地 说 经 过 m 步 后 ， 我 
们 停止 选 代 ， 并 注意 B (x) = fx - 工 ， 以 及 对 i> 1 有 BA0) = BC) = B,， 且 当 i; 为 大 于 1 的 奇数 时 ， 


\" 2) 
B,=0 (见习 题 3.86 和 3.87)， 这 样 我 们 就 得 到 公式 
_ g(0)+ gl) © By gi 2m ym(X) 4 
feed SS ae oh - f8" 0 


将 g(x) = f(x + 月 代入 ， 并 对 ak<b 求 和 ， 就 可 简化 成 定理 所 述 的 结果 ， 用 同样 的 方法 可 以 得 
到 余 项 为 


Rf alt) 





me SO jx 


再 根据 伯 努 利 数 的 渐 近 性 质 ， 就 可 以 得 出 定理 中 所 述 的 关于 余 项 的 界 。( 更 详细 的 细节 可 参见 
De Bruijn[6] 或 Graham、Knuth、Patashnik[12]1。) a 
例如 取 f(x) = e， 则 公式 的 左 端 为 (e+ - ee- 1D)， 右 端 所 有 导数 都 相同 ， 因 此 令 两 端 同 
时 除 以 e+ - e* 并 使 m 增 加 ， 我 们 就 可 以 证 明 1/(e - 1) = 2,B/k!. 
因为 伯 努 利 数 可 以 增长 到 相当 大 的 数 ， 所 以 定理 中 的 式 子 常常 是 一 个 发 散 的 渐 近 级 数 ， 
因而 该 式 子 经 常用 于 较 小 的 mm 值 。 在 定理 4.2 的 一 般 性 应 用 中 ， 取 前 几 个 伯 努 利 数 Be = 1, By = 
-1/2、B, = 1/6、B; = 0 和 B4 = - 1/30 通 常 就 足够 了 。 我 们 可 以 把 公式 写成 更 简单 的 形式 





1 
k dx Lf -— f" 
p Fk) = = f fo +> L flas TORTO aot (x)? + 


但 我 们 要 清楚 必须 检查 定理 的 条 件 以 及 误差 的 界 ， 以 保证 应 用 是 合法 的 。 


取 f(x) = x*， 则 对 足够 大 的 m， 导 数 项 和 余 项 将 都 会 消失 ， 从 而 可 以 证 实 : ERR BAH 
的 和 中 ， 伯 努 利 数 可 以 用 来 作为 系数 。 我 们 有 
N? N_NN+D 


大 一 一 + 
fen 2 2 2 

ka N? X NN N(N +1)(2N +1) 
1 fen 3°26 6 


等 等 ， 这 与 3.13 节 中 的 结果 是 完全 一 样 的 。 
习题 4.52 当 把 51ck<nk 表 示 成 N 的 矫 的 和 时 ， 用 欧 拉 -- 麦 克 劳 林 求 和 公式 确定 其 系数 〈 见 
3.13 节 )。 


推论 如 果 j 为 一 无 限 可 微 函 数 ， 则 有 


hE? ( | 
x) 
o 








DNL N) ~N fhair + 二 (MO)+ h(1)) + Ya ain = -h 


证 明 对 f(x) = AG/N) E42. a 
把 上 式 两 端 同时 除 以 W， 将 得 出 一 个 相应 于 /的 黎 曼 和 。 换 句 话 说， 该 推论 是 


im D = [xmdx 





的 一 个 改进 。 
欧 拉 -麦克 劳 林 求 和 对 于 求 与 这 种 类 型 相关 的 和 的 渐 近 展开 将 是 非常 有 效 的 ， 例 如 
h(k? I N) 
< KS N 
我 们 很 快 就 会 看 到 这 样 的 应 用 。 
习题 4.53 求 出 一 个 关于 
1 
ot ylt+k/N 
的 渐 近 展开 式 。 
习题 4.54 证 明 : 
1  _W3 lol)\ 


nl+k IN? 4 4 24N \N?) 


正如 我 们 所 说 过 的 ， 当 求 和 /积分 的 区 间 增 大 且 步 长 固定 时 ， 定 理 4.2 将 不 能 给 出 足够 准确 
的 估计 。 例 如 ， 如 果 我 们 试图 
用 [foods 来 估计 也 = D 到 
时 ， 将 遇 到 一 个 困难 ， 这 是 因为 当 N-*w 时 ， 和 与 积分 之 间 的 差 将 趋向 于 一 个 未 知 的 常数 。 下 
面 我 们 将 转向 处 理 这 一 问题 的 欧 拉 一 考 克 劳 林 求 和 的 形式 。 





欧 拉 - 麦 克 劳 林 求 和 的 离散 形式 。 在 定理 4.2 之 前 的 讨论 中 ， 取 a = 1 和 8 = N， 我 们 将 得 到 
freee F f0)-FIO+F0)-f' (09-3) Fee 


如 果 当 N 一 % 时 ,了 (x) 趋 于 0 的 速度 足够 快 ， 那 么 这 个 公式 将 把 和 与 积分 关联 到 一 个 常数 因子 
上 。 特 别 地 ， 如 果 量 


cr isO f (tf Cd 


存在 ， 则 它 就 定义 了 f 的 欧 拉 -麦克 劳 林 常 数 ， 并 且 我 们 已 经 证 明 过 


jm 3 sw- freser-5700) = 
取 f(x) = 1/x， 将 给 出 关于 调和 数 的 一 个 逼近 。 在 这 种 情况 下 ， 欧 拉 ~ 麦 克 劳 林 常 数 就 简 
称 为 欧 拉 常数 (Euler’s constant): 
lr/lm_l 
“2 Lie 2) x? 
因此 ， 
=InN+y +o(1) 184 


常数 y 大 约 为 0.57721…， 且 人 们 尚 不 知 它 是 哪些 其 他 基本 常数 的 一 个 简单 函数 。 
取 f(x) = Inx， 将 给 出 关于 lnN! 的 Stirling 和 逼近。 此 时 ， 欧 拉 - 麦 克 劳 林 常 数 为 


实际 上 ， 这 个 常数 确实 是 其 他 基本 常数 的 一 个 简单 函数 : 它 等 于 mv2r -1 。 在 4.7 节 中 ， 我 
们 将 看 到 证 明 此 结果 的 一 种 方法 。 值 c = V2r 称 为 Stirling 常 数 。 该 常数 在 算法 分 析 和 许多 其 
他 应 用 中 经 常 出 现 。 于 是 


In N= Nin N- N+ InN +In2a + oC) 


当 欧 拉 一 麦克 劳 林 常数 已 经 严格 地 定义 之 后 ， 继 续 进行 分 析 以 获得 渐 近 级 数 中 更 多 的 项 就 
变 得 相对 容易 了 。 总 结 上 面 的 讨论 ， I 


(k) = {Far+= LAN) C,- (ey), (x)dx 
DR = fF + Je f'(x 


现在 用 与 前 面相 同 的 方式 ， 对 剩余 的 积分 反复 进行 分 部 积分 ， 我 们 将 得 到 一 个 包含 伯 努 利 数 
和 高 阶 导数 的 展开 式 。 这 通常 能 导出 一 个 完全 的 渐 近 展开 式 ， 因 为 一 个 最 常见 的 事实 是 : 县 
有 光滑 性 质 的 函数 的 高 阶 导数 在 "处 将 变 得 越 来 越 小 。 

定理 4.3 ( 欧 拉 一 豆 克 劳 林 求 和 公式 ， 第 二 种 形式 ) 设 FoD 是 定义 在 区 间 [1, co ) 上 的 函数 ， 

并 假设 导数 f(x) 存在 且 对 1 <i<2m 绝 对 可 积 ， 其 中 mm 是 一 个 固定 的 常数 。 则 有 


1 
>. fA) = ffx +S FN)+C; + a Ba fon(N) + R, 
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其 中 C) 是 与 函数 有 关 的 一 个 常数 ， 尺 ,是 余 项 且 满 足 
IR, l= olf I f° 1dr) 


185 证 明 用 归纳 法 ， 对 上 面 的 论证 进行 扩展 即 可 。 细 节 可 在 [6] 或 [10] 中 找到 。 一 
推论 WRT AENAR EY ARME EMLA: 


Hy ~InN+y+---—+— 
y ow 12N’ 120N* 


证 明 在 定理 4.3 中 取 f(x) = Lxz， 利 用 上 面 所 讨论 的 常数 y/， 并 注意 余 项 与 和 中 的 最 后 一 项 
是 同 阶 的 ， 对 任意 固定 的 m 证 明 


1 B / 1 
Hy =InN+y +—— 2k + O| —— 
YEIN fly 2KN™ NN) 


由 此 式 可 得 出 推论 所 述 的 结果 。 国 
推论 (Stirling A) 函数 InN! 和 NI! 可 以 按 N 的 降 固 形式 进行 完全 渐 近 展开 : 


1 
inni~(na_\inn-N-4+InV2n +—— 
\ 2) ON 360N 





和 


1 1 139 \ 
NI~ 2nN —— 4 — - —— H 
il =i ‘(i “12N 288NM 5140M  ) 


证 明 ”在 定理 4.3 中 取 f(x) = Inx， 用 和 上 面 一 样 的 方法 进行 论证 以 找到 关于 lnN! 的 展开 式 。 
正如 上 面 所 提 到 过 的 ， 一 阶 导数 不 是 绝对 可 积 的 ， 但 欧 拉 ~- 麦 克 劳 林 常 数 存在 ， 所 以 定理 4.3 
显然 成 立 。 关 于 NI! 的 展开 式 可 以 通过 取 寡 以 及 4.3 节 中 所 讨论 过 的 基本 操作 而 得 到 。 a 


推论 Catalan T URNGOERB ARASH: 





aly) 4° (,_9 , 14850) 
N+1\N}) NyaxN\ 8N 128A? } 


证 明 ”通过 对 (2MI! 和 NI! 的 渐 近 级 数 进行 基本 操作 即 可 得 出 该 结论 。 在 4.3 节 所 给 出 的 例子 
中 可 找到 许多 有 关 细 节 。 E 
欧 拉 -麦克 劳 林 求 和 是 一 个 一 般 性 的 工具 ， 当 满足 函数 必须 是 “光滑 的 ”( 在 所 期 望 的 渐 
近 级 数 中 ， 有 多 少 项 ， 就 有 多 少 阶 导 数 ) 限制 、 并 且 我 们 能 够 计算 所 涉及 的 积分 时 ， 这 个 工 
具 是 很 有 用 的 。 我 们 刚才 给 出 的 关于 阶乘 、 调 和 数 以 及 Catalan 数 的 渐 近 展开 ， 在 许多 基本 算 
法 分 析 中 都 起 着 核心 的 作用 ， 这 种 方法 也 出 现在 许多 其 他 的 应 用 中 。 
习题 4.55 将 计算 到 10 位 小 数位 。 
习题 4.56 证 明 : 推广 的 (二 阶 ) 调和 数 可 以 渐 近 展开 为 
1 wv 1 1 1 


HY + 
y Rk 6 N 2N? 6N? 


习题 4.57 导出 关于 
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w= > a 
的 一 个 渐 近 展开 式 ， 准 确 到 OUIV )。 
习题 4.58 利用 欧 拉 -麦克 劳 林 求 和 ， 估 计 


Vk, L, > I 
1S KEN 1< dy Vk ISSN k 





准确 到 O(L/NV2) 。 
习题 4.59 求 出 关于 





的 完全 渐 近 展开 式 。 
4.6 二 元 渐 近 性 

在 有 逼近 和 的 时 候 我 们 所 面 对 的 许多 挑战 性 问题 都 与 所 谓 的 二 元 渐 近 性 有 联系 ， 其 中 的 被 
加 数 既 依赖 于 求 和 的 下 标 又 依赖 二 描述 渐 近 增长 的 “大 小 ”参数 。 和 我 们 以 前 多 次 的 做 法 一 
样 ， 假 设 这 两 个 变 元 分 别 叫做 k 和 N。 现 在 ,Kk 和 N 的 相应 值 以 及 它们 的 增长 速度 无 疑 对 渐 近 估 
计 起 着 重要 的 作用 。 关 于 这 一 点 的 一 个 简单 例子 是 : 注意 对 于 固定 的 而 言 ， 当 N 一 % 时 ， 函 
数 KN/k!L 以 指数 的 量 级 增 大 ， 而 对 固定 的 N 而 言 ， 当 k->% 时 ， 它 却 以 指数 的 量 级 减 小 。 

在 求 和 的 场合 下 ， 我 们 通常 需要 考虑 所 有 小 于 N (或 N 的 某 个 函数 ) 的 k 值 ， 因 此 ， 我 们 关 
注 的 是 找到 关于 的 范围 尽 可 能 大 的 准确 的 渐 近 估计 。 求 和 之 后 将 会 消去 变 元 :， 这 就 使 我 们 
又 回 到 了 一 元 的 情形 。 本 节 我 们 将 详细 考查 几 个 在 算法 分 析 中 起 着 核心 作用 的 二 元 函数 : 
Ramanujan 范 数 和 二 项 式 系 数 。 在 接 下 来 的 几 节 中 ， 我 们 将 看 到 如 何 利用 本 节 所 产生 的 估计 对 
涉及 这 些 函 数 的 和 进行 渐 近 到 近 ， 以 及 这 些 估计 是 如 何 与 算法 分 析 中 的 应 用 相 联 系 的 。 

Ramanujan 分 布 。 我 们 的 第 一 个 例子 是 关于 一 个 分 布 的 ， 该 分 布 由 Ramanujan ( 见 14] ) 
首先 进行 了 研究 ， 后 来 由 于 这 个 分 布 在 算法 分 析 的 许多 应 用 中 经 常 出 现 ，Knuth[16] 又 对 它 进 
行 了 研究 。 我 们 将 在 第 8 章 中 看 到 ， 许 多 算法 的 性 能 特征 都 依赖 于 函数 


N! 
N)= 一 -一 一 一 
om) Dey (N OIN 


在 概率 论 中 ， 此 函数 也 是 为 人 们 所 熟知 的 生日 函数 : 要 找到 具有 相同 生日 的 两 个 人 【 当 一 年 
中 有 N 天 时 )，CCV + 1 则 是 我 们 所 需要 的 期 望 试验 次 数 。 表 4-7 对 较 小 的 N 和 /给 出 了 被 加 数 的 
列表 ， 而 图 4-1 画 出 曲线 图 。 在 图 中 ， 分离 的 曲线 是 对 每 个 N 值 给 出 来 的 ，k 的 相继 值 由 一 些 直 
线 所 连接 。 每 条 曲线 的 k 轴 的 标 度 使 得 曲线 能 够 布 满 整个 图 形 。 为 了 能 估计 出 和 的 值 ， 我 们 首 
先 必须 能 够 在 当 N 增 加 时 ， 对 所 有 的 k 值 精确 地 估计 出 被 加 数 的 值 。 


定理 4.4 (Ramanujan Q- 分 布 ) 当 N 一 % 时 ， 下面 的 (相对 ) MUA k= OWN”) RL: 


N! 


NN romfirolk\, (E) 
CDIN: (ww)) 


\N) 
此 外 对 所 有 的 k， 下 面 的 ( 绝对) SM RS: 
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N! =e" 2) 19 1 
(N-k)!N* JN 
324-7 Ramanujan Q- 分 布 N! 
- ujan Q- 一 一 一 
(N -k)!N* 
NI k> 1 2 3 4 5 6 7 8 9 10 
2 1 0.5000 
3 1 0.6667 0.2222 
4 1 0.7500 0.3750 0.0938 
5 1 0.8000 0.4800 0.1920 0.0384 
6 1 0.8333 0.5556 0.2778 0.0926 0.0154 
7 1 0.8571 0.6122 0.3499 0.1499 0.0428 0.0061 
8 1 0.8750 0.6563 0.4102 0.2051 0.0769 0.0192 0.0024 
9 1 0.8889 0.6914 0.4609 0.2561 0.1138 0.0379 0.0084 0.0009 
10 1 0.9000 0.7200 0.5040 0.3024 0.1512 0.0605 0.0181 0.0036 0.0004 
1 
N! 
(N -k)!N* 
0.75 
0.5 
0.25 
0 
0 N/2 N 


图 4-1 Ramanujan Q- 分 布 ，(k 轴 按 N 的 比例 标 度 ) 
证 明 在 4.3 节 中 ， 我 们 曾 利 用 “指数 /对 数 ” 技 巧 证 明 过 相对 误差 界 ， 因 此 有 
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现在 对 k = o(W， 我 们 应 用 表 4-2 中 的 逼近 
In(+z=xz+o) W x=-j/N 


NO O J off) 
(NOIN -| 5 A) 


k(k-1) k’ 
none e+] 

最 后 对 于 k = o(VY2) ， 利 用 表 4-2 中 的 逼近 e- = 1 + O(x)， 我 们 将 立即 得 到 定理 所 述 的 相对 逼近 。 

结果 中 的 两 个 O- 项 都 应 该 保留 ， 以 便 覆盖 k 值 的 范围 。O(C/N) 项 本 身 是 不 充分 的 ， 因 为 
例如 当 我 们 对 结果 的 要 求 是 O(1/N) 时 ， 对 k = O(1)， 它 等 于 O(1/N?)。O(K/N) 项 本 身 也 是 不 充分 
的 ， 例 如 当 我 们 对 结果 的 要 求 是 O(N'5) 时 ， 对 k = O(N5)， 它 等 于 OC(UN”)。 这 说 明 对 于 二 
元 渐 近 性 ， 我 们 必须 细心 对 待 。 

为 找 出 绝对 误差 界 ， 我 们 首先 考虑 kK 比较“ 小 ”时 的 情况 ， 比 如 说 k< 如 时 ， 其 中 心 是 最 靠 
近 于 N” 的 整数 。 由 于 相对 逼近 肯定 是 成 立 的 ， 因 此 我 们 有 


并 求 和 : 


N! = =k? K2N) -KŻ AZN) (k\ -kK? KLN) (=) 
N- ON  ° te ON Te NM 

此 时 ， 第 二 项 等 于 OU/VN) ， 因 为 我 们 可 以 将 其 重新 写成 : 对 所 有 的 zx>0，xe” ONN) R 

xe” = 0(1) 的 形式 。 类 似 地 ， 第 三 项 具有 Pe oa VN) 的 形式 ， 因 此 它 等 于 oNN), iX 

是 因为 对 所 有 的 zx>0，xze” = O11). 

下 面 我 们 考虑 比较 “大 ”时 的 情况 ， 或 E> 如 时 的 情况 。 刚 才 给 出 的 论证 说 明了 

MWe olL 
(N-k,)IN® l sofy) 

Hee, RRR), KORA TAT k A 


N! 1 
(VIM -0( 5) | 
但 对 于 k> ky, exp{-K/(2N)} HERB NE, PARK > ko, 定理 中 所 述 的 绝对 误差 界 成 立 。 
上 面 的 两 段 内 容 建立 了 对 于 所 有 的 k&> 0 了 时 的 绝对 误差 界 。 在 这 个 例子 中 ， 截 断 点 NV” 并 不 
是 特别 重要 : 它 只 需要 足够 小 ， 以 使 相对 误差 界 对 较 小 的 成 立 ( 稍 小 于 N33)， 且 只 需要 足够 


大 ， 以 使 各 项 对 较 大 的 k ( 稍 大 于 VN ) 成 为 指数 级 小 量 。 E 
i d T ON o ~k(k-b)AQN) 
推论 MALIN, 有 Nr < 
证 明 在 上 面 的 推导 过 程 中 ， 用 不 等 式 In(l - x)< -x 取代 渐 近 估计 即 可 。 | 


Ramanujan 和 研究 了 应 用 到 另 一 个 函数 的 一 组 几乎 完全 相同 的 论证 方法 ， 即 所 谓 的 R- 分 市 。 
表 4-8 给 出 了 该 函数 关于 较 小 的 N 和 k 值 时 的 列表 ， 其 分 布 图 由 图 4-2 所 示 。 关 于 这 个 函数 ， 我 
们 将 对 其 渐 近 结果 给 出 详细 的 益 述 ， 后 面 将 会 清楚 这 样 做 的 原因 。 
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， NIN* 
表 4-8 Ramanujan R- 分 布 一 一 一 
(N +k)! 

N} k> i 2 3 4 5 6 7 8 9 
2 0.6667 0.3333 
3 0.7500 0.4500 0.2250 
4 0.8000 0.5333 0.3048 0.1524 
5 0.8333 0.5952 0.3720 0.2067 0.1033 
6 0.8571 0.6429 0.4286 0.2571 0.1403 0.0701 
7 0.8750 0.6806 0.4764 0.3032 0.1768 0.0952 0.0476 
8 0.8889 0.7111 0.5172 0.3448 0.2122 0.1212 0.0647 0.0323 
9 0.9000 0.7364 0.5523 0.3823 0.2458 0.1475 0.0830 0.0439 0.0220 





定理 4.5 (Ramanujan R- 34) 当 N 一 % 时 ， 下 面 的 (相对 ) 逼近 对 上 = 0(N) RE: 


NIN! =e PON) 1+0(£}+0( 4] 
(N+k)! \N/ N? 
此 外 对 所 有 的 k， 下 面 的 (绝对 ) 通 近 成 立 : 


NIN‘ a gM +o] 
(N+k)! 








证 明 经 过 下 面 的 第 一 步 证 明之 后 ， 其 余部 分 与 C- 分 布 的 证 明 几乎 完全 一 样 : 


NIN N‘ 
(N-k)! (N+kXN+k-1)(N +1) 

1 
TAO 
tt WO Ww) 


3 
= cee + ofz] 


= erent + of =) + =) 


与 Q- 分 布 的 证 明 方法 一 样 ， 绝 对 误差 界 成 立 。 


` N! NÝ 
5 G N (k<N), -krDW4N) 。 
推论 对 所 有 的 k 和 N (k<N) 部 有 oe 
证 明 ARER- +x- (对 0 <x< 1 成 立 ) 取代 上 述 推导 过 程 中 的 渐 近 估计 即 可 。 田 


习题 4.60 证 明 : 对 所 有 的 k 和 N， 都 有 NIN" > en HeeDIAN) 。 
(N+k)! 
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图 4-2 Ramanujan R- 分 布 ，2< N< 60(k 轴 按 和 N 的 比例 标 度 ) 

在 本 章 的 后 一 阶段 ， 我 们 还 将 返回 到 Ramanujan 分 布 上 来 ， 以 处 理 几 个 应 用 问题 。 然 而 ， 
在 这 样 做 之 前 ， 我 们 把 注意 力 先 转 到 一 个 二 元 分 布 上 ， 即 大 家 所 熟知 的 二 项 分 布 (binomial 
distribution ) ， 该 分 布 在 算法 分 析 中 起 着 更 加 重要 的 作用 。 事 实 上 ， 上 面 所 给 出 的 关于 
Ramanujan 分 布 的 渐 近 逼近 的 推导 过 程 概括 了 逼近 二 项 分 布 的 基本 方面 。 

习题 4.61 利用 关于 lnN! 的 Stirling 公 式 ， 证 明 上 面 两 个 定理 所 给 出 的 Ramanujan Q-A% 
和 Ramanujan R- 分 布 的 相对 误差 界 。 

二 项 分 布 。 给 定 N 个 随机 的 比特 位 ， 其 中 恰好 有 Kk 个 比特 是 0 的 概率 就 是 我 们 所 熟知 的 二 项 
分 布 ， 也 叫 伯 和 努 利 分 布 : 

abe N de N! 
2 (, 2% k(N-kK)! 

有 兴趣 的 读者 可 以 查阅 Feller 的 经 典 教材 [8] 或 任何 标准 的 参考 文献 关于 这 一 分 布 的 性 质 及 其 在 
概率 论 中 应 用 的 有 关 人 信息。 由 于 它 在 算法 分 析 中 经 常 出 现 ， 我 们 在 这 里 将 对 它 的 许多 重要 性 
质 加 以 概括 。 

表 4-9 给 出 了 二 项 分 布 关 于 较 小 N 值 时 的 准确 值 和 较 大 N 值 时 的 近似 值 。 和 以 往 一 样 ， 我 们 对 
此 函数 进行 渐 近 分 析 的 一 个 动机 就 是 计算 这 样 的 一 些 值 。 [| /2sm 的 值 大 约 为 0.007 979, 
但 人 们 不 会 这 样 去 做 : 首先 计算 10 000! ， 然 后 将 其 除 以 5000! 等 等 。 事 实 上， 人 们 对 这 个 
分 布 已 经 研究 3 个 世纪 了 ， 寻 找 容易 计算 的 逼近 的 动机 在 计算 机 出 现 之 前 就 已 经 存在 了 。 

习题 4.62 编写 一 个 程序 ， 计 算 二 项 分 布 的 精确 值 ， 准 确 到 单 精 度 浮 点 精度 。 

我 们 已 经 计算 过 中 央 二 项 式 系数 的 近似 值 : 
2N _ 2s (1) 
四 Jaw (i+ ola) 
也 就 是 说 : 在 表 4-9 中 ， 中 间 的 那些 项 像 1/VN 那样 递减 。 对 于 其 他 的 x 值 ， 分 布 是 如 何 表 现 
的 呢 ? 图 4-3 给 出 了 一 个 按 比例 绘制 的 分 布 图 形 ， 这 个 图 形 能 给 出 我 们 一 些 暗 示 ， 下 面 我 们 将 
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给 出 一 个 精确 的 渐 近 分 析 。 
N 
表 4-9 二 项 分 布 (pa 


= 
= 
了 
© 
nN 
w 
a 
wn 
an 
x 

o0 

No) 


0.0156 0.0938 0.2344 0.3125 0.2344 0.0938 0.0156 

0.0078 0.0547 0.1641 0.2734 0.2734 0.1641 0.0547 0.0078 

0.0039 0.0312 0.1094 0.2188 0.2734 0.2188 0.1094 0.0312 0.0039 

0.0020 0.0176 0.0703 0.1641 0.2461 0.2461 0.1641 0.0703 0.0176 0.0020 
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0 N/2 N 
图 4-3 二 项 分 布 ， 2<N< 60(k 轴 按 N 的 比例 标 度 ) 


图 中 的 极限 曲线 是 我 们 所 熟知 的 由 正 态 概率 密度 函数 e““/V2n 所 描述 的 “ 钟 形 曲线 ”。 
曲线 的 顶部 在 lra ~1/VnN/2 之 间 ， 对 N = 60， 它 大 约 为 0.103。 

我 们 这 里 的 目的 是 利用 我 们 已 经 得 到 的 渐 近 工具 来 分 析 这 个 钟 形 曲线 的 性 质 。 我 们 所 给 
出 的 结果 将 是 经 典 的 ， 这 些 结果 在 概率 与 统计 中 起 着 非常 重要 的 作用 。 我 们 对 这 些 结果 的 兴 
趣 不 仅仅 是 因为 它们 在 许多 算法 分 析 中 的 直接 应 用 ， 还 在 于 研究 二 项 分 布 的 渐 近 估计 时 所 使 
用 的 技巧 ， 这 些 技巧 可 以 直接 用 在 算法 分 析 中 出 现 的 大 量 类 似 的 问题 之 中 。 关 于 在 概率 统计 
背景 下 的 正 态 逼近 的 论述 ， 可 参考 ， 比 如 说 ，Feller[8]。 

图 4-3 使 得 如 下 事实 变 得 一 目 了 然 : 曲线 最 重要 的 部 分 在 中 央 附 近 一 一 随 着 N 值 的 增 大 ， 
边缘 附近 的 值 变 得 可 以 忽略 不 计 。 这 一 点 从 我 们 开始 时 提出 的 概率 模型 中 可 以 很 直观 地 看 出 
来 : 在 一 个 随机 比特 流 中 ， 我 们 期 望 0Oo 和 1 的 个 数 大 致 相等 ， 随 着 比特 流 长 度 的 增加 ， 所 有 的 
比特 位 几乎 全 是 0 或 全 是 1 的 概率 将 变 得 小 到 接近 于 零 。 下 面 ， 我 们 将 对 这 种 叙述 给 出 更 为 精 





nO RHE. 

正厅 逼近 。 由 于 二 项 分 布 中 重要 的 值 在 中 央 附近 ， 因 此 为 方便 起 见 ， 我 们 将 重 写 这 个 分 
布 ， 并 考虑 计算 | a) /2”。 这 个 式 子 关于 k= 0 是 对 称 的 ， 并 随 着 出 从 0 到 N 的 递增 而 递 天 。 
这 是 处 理 任何 分 布 时 的 重要 一 步 : 将 那些 最 大 的 项 放 在 开头 部 分 ， 较 小 的 项 放 在 尾部 ， 这 更 
便于 我 们 对 尾部 的 定 界 和 把 注意 力 集中 在 主要 的 项 上 ， 尤 其 是 在 利用 逼近 来 求 和 时 更 是 如 此 ， 


我 们 下 面 将 要 看 到 。 
正如 结果 所 表明 的 ， 我 们 已 经 看 到 证 明 经 典 正 态 遥 近 到 二 项 分 布 所 需要 的 基本 方法 。 


定理 4.6 (EAM) 当 N-~>o 时 ， 下面 的 (相对 ) 通 近 对 k= O(N) RE: 


arla rtd) 


此 外 ,下面 的 (绝对 ) EAA HR SZ: 


f -K?N 
z| 2N = e + of 1) 
22N N-k +N \ ny? ] 
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1 ( 1 (2N)! N! NIN* 


228 \N-k) 227 NIN! (NAN (N +k)! 


我 们 可 以 看 到 : 二 项 分 布 恰好 是 Ramanujan 0 分布 和 Ramanujan R- 分 布 的 乘积 
et 
PNAN) SaN \Nn) 
因此 ， 我 们 可 以 通过 简单 地 把 这 些 量 的 渐 近 估计 (由 定理 4.4、 定 理 4.5 以 及 定理 4.3 的 第 三 个 
推论 所 给 出 ) FASE, ， 就 能 获得 一 个 准确 到 O(C/N) 的 相对 盘 近 ， 从 而 得 到 定理 所 述 的 结论 。 然 


而 ， 在 推导 过 程 中 多 取 一 项 ， 将 会 产生 消 项 ， 从 而 给 出 更 高 的 精度 。 与 定理 4.4 和 定理 4.5 的 证 
明 方法 一 样 ， 我 们 有 


N! NIN 1 
OTTO CX! n 
(N~-k)!N* (N+k)! 1 Sek 
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改进 的 精度 是 由 于 和 中 消除 六 /N? 项 得 到 的 。O(KYN?) 项 可 以 用 O(1/N) 来 代替 ， 因 为 如 果 k < 
AN ， 则 KN 和 壬 于 OCLUN)， 如 果 k> JN, MENETO). | 
利用 和 定理 4.4 相 同 的 证 明 过 程 ， 我 们 可 以 先 对 所 有 的 k> 0 时 建立 起 绝对 误差 界 ， 再 根据 
二 项 式 系 数 的 对 称 性 可 知 ， 绝 对 误差 界 对 所 有 的 k 都 成 立 。 m 
这 是 对 二 项 分 布 的 正 态 逼近 : 函数 e” / VxN 是 图 4-3 底 部 处 著名 的 “ 钟 形 曲 线 ”"。 大 多 
数 曲线 将 落 在 一 个 小 的 正 负 常 数 乘 以 VN 的 均值 的 范围 之 内 ， 且 在 此 范围 之 外 尾部 以 指数 的 
量 级 衰减 。 通 常 当 我 们 操作 正 态 逼近 时 ， 我 们 需要 利用 这 两 个 事实 。 


1 2N -K K2N) 
推论 对 所 有 的 Kk 和 NN， TAMAL e o 


证 明 注意 到 | yj (a <1 ， 并 对 定理 4.4 和 定理 4.5 的 推论 中 的 界 相 乘 即 可 证 得 。 = 


这 种 结果 经 常用 来 以 下 面 的 方式 对 分 布 的 尾部 进行 定 界 。 给 定 E> 0 和 上 > V2N” , R 
们 有 
1 2N 
pa 
就 是 说 ， 当 k 的 增长 稍稍 快 于 VN 的 增长 时 ， 分 布 的 尾部 是 指数 级 小 量 。 
习题 4.63 对 k=VN+O() 时 的 情形 进行 正 态 逼近 ， 准 确 到 O(IN)。 
习题 4.64 作为 N 的 一 个 函数 ， 画 出 使 二 项 概率 大 于 0.001 的 最 小 的 K。 
泊 松 逼近 。 以 稍微 更 一 般 的 形式 ， 二 项 分 布 给 出 了 次 独立 试验 中 成 功 次 的 概率 ， 其 中 
每 一 次 成 功 的 概率 为 p: 
N 
(a-p 


我 们 将 要 在 第 8 章 中 详细 讨论 ， 这 个 公式 经 常用 “占有 分 布 ” 的 措辞 来 研究 N 个 球 在 M 个 侈 中 
的 分 布 。 取 p = 1/M， 则 恰好 有 Kk 个 球 落 入 某 个 特定 的 爹 (OBESE) 中 的 概率 是 
Ale Ay, ay" 
(mu) Vm) 
“ 球 - 侈 ”模型 是 一 个 经 典 的 模型 (例如 ， 参 见 [8])， 并 且 事 实 上 这 个 模型 可 以 直接 用 于 大 量 
被 广泛 应 用 的 基本 算法 中 ， 我 们 将 在 第 7 和 第 8 章 中 看 到 。 
只 要 M 是 一 个 常数 ， 则 该 分 布 就 仍然 可 以 用 一 个 以 N, 为 中 心 的 正 态 分 布 来 逼近 ， 正 如 习题 
4.67 所 证 实 、 以 及 图 4-4 中 (对 p = 1/5 时 ) 所 阐明 的 那样 。 
M 随 着 NN 变化 时 的 情况 特别 值得 关注 。 换 句 话 说 ， 我 们 取 p = LUM = 和 MN， 其 中 和 是 一 个 常 
数 。 这 相当 于 进行 N 次 试验 ， 每 次 试验 都 有 一 个 小 的 (WN) 成 功 概率 。 于 是 我 们 期 望 成 功 的 
平均 次 数 为 4。 
相应 于 这 种 结论 (在 浙 近 极限 中 ) 的 概率 定律 叫做 治 松 律 。 当 我 们 要 描述 大 量 “ 主 体 ” 
的 整体 行为 时 ， 这 个 定律 是 适用 的 ， 每 个 个 体 是 “起 作用 的 "、“ 成 功 的 "、 或 是 其 他 什么 与 众 
不 同 特征 的 概率 是 很 小 的 。 泊 松 定律 的 最 早 的 一 个 应 用 (归功 于 19 世 纪 的 Von Bortkiewicz) 
就 是 描述 普鲁士 军队 中 被 马匹 踢 死 的 骑兵 的 数量 特征 。 从 那 以 后 ， 该 定律 就 被 广泛 用 来 描述 
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各 种 各 样 的 情形 ， 从 放射 性 衰减 到 对 伦敦 的 空袭 (参考 [8]) 等 。 在 当前 的 环境 下 ， 泊 松 定律 
则 用 来 描述 球 - 爹 模型 中 任意 一 个 给 定 的 侈 (例如 第 一 个 侈 ) 的 情况 。 
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图 4-4 二 项 分 布 ，3<N< 60 (kK 轴 按 N 的 比例 标 度 ) 


定理 4.7 ( 泊 松 近似 ) 对 固定 的 A 和 所 有 的 k&， 当 N 一 2 时 ， 有 


()(%) (-#) «AF eo 
特别 地 ， 当 k = O(N?) HA 
Ws = ed) 


证 明 把 二 项 式 系数 写成 另外 一 种 形式 : 


NAN e AR N! A 
(全 ve Ser rts aed 
我 们 看 到 ，Ramanujan CO- 分 布 在 这 里 又 一 次 出 现 了 。 把 定理 4.4 的 结果 与 


N-k 
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erp| W(t o(a) 








N-k 


结合 ， 我 们 即 可 得 到 定理 所 述 的 相对 误差 界 。 
为 了 证 明定 理 的 第 一 部 分 (绝对 误差 界 ) ， 我 们 通过 对 所 有 的 上 > VN (4 固定 ) 的 观察 可 
知 ， 泊 松 项 与 二 项 式 的 项 均 是 指数 级 的 小 量 ， 因 而 是 o(1)。 E 





随 着 k 的 增 大 ，X/k! 项 也 随 之 增 大 ， 直 到 k = |X] 时 为 止 ， 然 后 Xwk 项 迅速 减 小 。 和 正 态 逼 
近 一 样 ， 利 用 不 等 式 而 不 是 大 0- 记 号 进行 上 面 的 推导 ， 则 很 容易 导出 尾部 的 界 。 图 4-5 显 示 
了 对 较 小 的 固定 和 *， 当 NN 增 大 了 时， 该 分 布 是 如 何 演变 的 。 表 4-10 给 出 了 关于 和 = 3 时 的 二 项 分 布 
和 泊 松 和 逼近 。 无 论 何 时 ， 只 要 概率 相对 较 小 ， 即 使 是 对 较 小 的 N 而 言 ， 泊 松 逼近 对 二 项 分 布 都 
是 一 个 相当 精确 的 估计 。 


40 一 N\/3)"/,_ 3) ko- 
表 4-10 zaan h COE ase Me 





N| k> 0 1 2 3 4 5 6 7 8 9 





4 0.0039 0.0469 0.2109 0.4219 0.3164 

5 0.0102 0.0768 0.2304 0.3456 0.2592 0.0778 

6 0.0156 0.0938 0.2344 0.3125 0.2344 0.0938 0.0156 

7 0.0199 0.1044 0.2350 0.2938 0.2203 0.0991 0.0248 0.0027 

8 0.0233 0.1118 0.2347 0.2816 0.2112 0.1014 0.0304 0.0052 0.0004 
9 0.0260 0.1171 0.2341 0.2731 0.2048 0.1024 0.0341 0.0073 0.0009 


10 0.0282 0.1211 0.2335 0.2668 0.2001 0.1029 0.0368 0.0090 0.0014 0.0001 
li 0.0301 0.1242 .02329 0.2620 0.1965 0.1031 0.0387 0.0104 0.0019 0.0002 
12 0.0317 0.1267 0.2323 0.2581 0.1936 0.1032 0.0401 0.0115 0.0024 0.0004 
13 0.0330. 0.1288 0.2318 0.2550 0.1912 0.1033 0.0413 0.0124 0.0028 0.0005 
14 0.0342 0.1305 0.2313 0.2523 0.1893 0.1032 0.0422 0.0132 0.0031 0.0006 
100 0.0476 0.1471 0.2252 0.2275 0.1706 0.1013 0.0496 0.0206 0.0074 0.0023 
% 0.0498 0.1494 0.2240 0.2240 0.1680 0.1008 0.0504 0.0216 0.0027 0.0009 


函数 Me-*k! 称 为 泊 松 分 布 ， 正 如 前 面 所 提 到 的 ， 该 分 布 能 够 模拟 许多 随机 过 程 。 该 分布 
的 PGF 为 exe -2， 因 此 其 均值 和 方差 都 是 4。 更 多 的 细节 可 参看 Feller[8]。 

在 算法 分 析 中 ， 经 常用 泊 松 逼近 来 近似 二 项 分 布 ， 例 如 像 第 8 章 中 所 描述 的 散 列 算 法 和 涉 
及 随机 映射 的 其 他 问题 的 分 析 就 是 如 此 。 


N 
习题 4.65 给 出 (yeep 的 渐 近 逼近 。 


习题 4.66 对 固定 的 p>， 给 出 (rep 的 渐 近 逼近 。( 提 示 : 变换 ， 使 分 布 中 最 大 


的 项 在 上 = 0 处 。) 
习题 4.67 对 p= 和 /VN 的 情形 ， 给 出 二 项 分 布 的 渐 近 遥 近 。 
习题 4.68 对 p = JinN 的 情形 ， 给 出 二 项 分 布 的 渐 近 还 近 。 


47 拉 普 拉 斯 方法 


在 上 一 节 的 定理 中 ， 我 们 看 到 对 于 二 元 分 布 而 言 ， 不 同 的 界 适用 于 不 同 的 范围 。 当 在 整 
个 范围 内 估计 和 时 ， 我 们 想 利用 我 们 的 能 力 在 不 同 的 范围 内 得 到 被 加 数 的 精确 估计 。 但 另 一 
方面 ， 如 果 我 们 能 在 我 们 所 关心 的 整个 范围 内 固守 单一 一 个 函数 的 话 ， 这 无 疑 会 给 我 们 带 来 
更 多 的 方便 。 

本 节 将 讨论 一 般 的 方法 一 一 拉 普 拉 斯 方法 ， 它 既 能 使 我 们 估计 和 的 值 ， 也 能 使 我 们 估计 积 
分 。 在 算法 分 析 中 ， 我 们 经 常会 遇 到 用 这 种 方法 来 进行 估计 的 和 。 通 常情 况 下 ， 我 们 也 会 利 
用 我 们 的 能 力 ， 用 积分 的 方法 来 至 近 这 样 的 和 。 有 关 这 种 方法 详尽 的 讨论 和 许多 例子 ， 可 以 
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图 4-5 二 项 分 布 ，3<N < 60 及 p = NN， 趋 于 泊 松 分 布 Me-*k! 
(k 轴 按 N 的 比例 标 度 ) 
总 之 ， 该 方法 以 下 面 三 个 步骤 为 中 心 对 和 来 进行 估计 : 
。 限 制 包含 那些 最 大 被 加 项 的 区 域 的 范围 ; 
。 通 近 被 加 项 ， 并 对 尾部 定 界 ; 
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“扩展 范围 并 对 新 的 尾部 定 界 ， 以 得 到 一 个 更 简单 的 和 。 

图 4-6 以 一 种 图 释 的 方式 阐明 这 个 方法 。 实 际 上 当 副 近 和 上 时， 所 涉及 的 函数 都 是 阶梯 
函数 ; 通常 在 逼近 结束 时 ， 才 以 欧 拉 -~ 麦克 劳 林 公式 应 用 的 形式 ， 呈 现 出 一 个 “光滑 ”的 
ER BK 


图 4-6 拉 普 拉 斯 法 : BME. BURT 
应 用 拉 普 拉 斯 方法 的 一 个 典型 的 例子 是 对 上 一 节 开 始 部 分 我 们 引入 的 Ramanujan Q- 函数 
值 的 计算 。 正 如 前 面 所 提 到 过 的 ， 该 函数 在 算法 分 析 中 是 相当 重要 的 ， 因 为 它 出 现在 许多 应 
用 中 ， 包 括 散 列 算法 、 随 机 映射 、 等 价 性 算法 以 及 内 存 缓存 性 能 的 分 析 等 ( 见 第 8 章 )。 


定理 4.8 (Ramanujan Q- 函数 ) 当 N 一 % 时 ， 


N! 
ae 1 (N= kyINe NI? + O(1) 


证 明 ”由 于 定理 4.4 中 给 出 的 两 个 估计 都 不 适用 于 被 加 项 的 整个 变化 范围 ， 所 以 我 们 必须 
把 它们 限定 在 它们 所 能 适用 的 部 分 范围 内 。 更 确切 地 说 ， 我 们 定义 fo 为 一 整数 ， 该 整数 是 
o(N”) 级 的 量 ， 并 把 和 分 成 两 部 分 : 


N! N! N! 
— = -一 一 一 一 一 一 十 —______.- 
Diy BIN Di, N= BIN Dey (= WINE 


我 们 将 充分 利用 这 两 部 分 对 k 的 不 同 限制 的 条 件 , SPA AET. 对 第 一 项 ( 主 项 )， 
我 们 利用 定理 4.4 中 的 相对 逼近 。 对 第 二 项 (尾部 ), > 的 限制 以 及 它 的 各 项 是 递 碱 的 事实 





意味 着 这 些 项 都 是 指数 级 的 小 量 ， 这 就 和 我 们 在 定理 4.4 的 证 明 中 所 讨论 过 的 一 样 。 把 这 两 个 
结论 合 在 一 起 ， 就 证 明了 


-kê N ml (Kk\ k? \ 
= (2N) £ x 
O(N) DH eoira) 
这 里 我 们 用 A 作 为 一 个 符号 来 表示 一 个 项 是 指数 级 小 量 ， 否 则 就 不 特别 指出 这 个 项 。 此 外 对 大 
> 如 ，exp(- 尼 /2M) 也 是 指数 级 小 量 ， 因 而 我 们 可 以 把 上 > 的 那些 项 再 加 入 进来 ， 所 以 我 们 有 


Q(N) = 2 eP 4 OU) 
1 


实质 上 ， 我 们 已 经 用 逼近 的 尾部 替换 了 原来 和 中 的 尾部 ， 这 是 合理 的 ， 因 为 二 者 都 是 指数 级 
小 量 。 我 们 把 该 式 的 误差 项 所 贡献 的 一 个 绝对 误差 为 O(1) 这 一 结果 的 证 明 留 做 下 面 的 一 道 习 
题 ， 因 为 该 证 明 只 是 关于 主 项 证 明 的 一 个 小 小 的 改动 ， 下 一 段 中 我 们 将 对 此 给 出 讨论 。 当 然 ， 
O(G) 也 吸收 指数 级 小 量 。 

剩 下 来 的 和 是 函数 e”? 以 步 长 1V 六 在 有 规律 的 间隔 点 上 所 取 的 函数 值 的 和 。 因 此 ， 欧 
拉 - 麦 克 劳 林 定 理 提供 了 这 个 和 的 逼近 


ee = VNf edr oa) 
该 积分 的 值 就 是 众所周知 的 Vr/2 ， 将 其 代入 上 面 C(N) 表 达 式 ， 就 得 出 了 定理 所 述 的 结果 。 m 


注意 ， 在 这 个 例子 中 ， 既 然 大 项 是 关于 小 的 值 而 出 现 的 ， 因 此 我 们 只 需 处 理 一 个 尾部 。 
一 般 情况 下 ， 正 如 图 4-6 所 描述 的 ， 起 决定 作用 的 项 都 出 现在 范围 内 的 中 间 某 个 地 方 ， 因 此 左 、 


右 尾部 都 需要 处 理 。 
习题 4.69 把 欧 拉 - 麦 克 劳 林 求 和 应 用 到 函数 xe? 和 x3e“? 上 ， 证 明 
i » o (Nn) 和 PX ( N 
都 是 O(1)。 


O- 函数 有 几 种 形式 ; Knuth 也 定义 了 两 种 相关 的 函数 一 一 P~- 函数 和 R- 函数 〈 这 是 一 个 我 
们 上 面 考察 过 的 R- 分 布 的 和 ) ， 表 4-11 列 出 了 这 些 函 数 以 及 由 Knuth 所 给 出 的 渐 近 估计 。 注 意 
根据 Stirling 有 逼近， 我 们 有 


NN _N wy 17m ,oli 
ON) + RIN) = SN NY TN+eV2N ONN) 


习题 4.70 证 明 : 
P(N)= yee = /nN/2 +00) 
习题 4.71 找 出 一 个 直接 的 论证 方法 ， 证 明 R(N) - QW) ~ 2/3. 
48 算法 分 析 中 的 “ 正 态 ” 例 
有 几 个 算法 的 分 析 要 依赖 类 似 于 二 项 分 布 : 


Frola) 
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理 4.2) 精确 地 估计 。 我 们 将 对 这 个 和 给 出 较 详 细 的 考查 ， 因 为 它 代 表 了 算法 分 析 中 出 现 的 许 
多 类 似 的 问题 ， 还 因为 它 提供 了 进一步 阐明 拉 普 拉 斯 方法 的 一 个 有 力 工具 。 


表 4-11 Ramanujan P-E. O- Be. R- BM 
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本 节 我 们 只 简要 概述 涉及 各 种 Fo 的 应 用 的 本 质 ， 这 是 因为 这 些 应 用 完全 是 用 引证 的 资料 
来 描述 的 ， 我 们 将 在 几 章 中 涉及 一 些 相关 的 基本 概念 。 在 本 节 中 ， 我 们 的 且 的 是 给 出 一 个 具 
体 的 例子 ， 来 说 明 渐 近 方法 如 何 能 对 实际 中 出 现 的 复杂 表达 式 给 出 精确 估计 。 上 面 这 种 类 型 
的 和 有 了 时 叫做 Catalan 和 ， 因 为 它们 的 产生 与 树 的 计数 以 及 Catalan 数 有 联系 ， 正 如 我 们 在 第 5 
章 将 要 看 到 的 那样 。 它 们 也 和 路 径 的 计数 与 归并 算法 有 联系 ， 我 们 在 第 6 章 中 也 将 遇 到 这 种 
问题 。 

2- 级 序列 。 如 果 数 列 中 奇数 位 置 上 的 数 是 递减 的 ， 而 偶数 位 置 上 的 数 是 递增 和 的， 这 个 数 
列 叫做 2- 级 序列 。 取 两 个 有 序 的 数列 并 将 它们 “混合 ”在 一 起 (交替 地 从 每 个 数列 中 取 一 个 
数 ) ， 将 得 到 一 个 2- 级 序列 。 在 第 6 和 第 7 章 中 ， 我 们 将 考查 这 种 序列 的 组 合 性 质 。 许 多 归并 
和 排序 算法 的 分 析 都 将 得 出 对 2- 级 序列 的 性 质 的 研究 。 在 Catalan 和 中 取 F(O = 上， 将 给 出 一 
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个 2- 级 序列 中 北 序 的 平均 数 ， 这 个 数 与 用 简单 排序 法 对 一 个 序列 进行 排序 所 花费 的 平均 运行 
时 间 成 正比 。 
Batcher 奇 - 偶 归 并 。 另 一 个 涉及 排序 方法 的 例子 要 归于 Batcher ( 见 [16] 与 [201)， 这 个 算 
法 适 于 硬件 实现 。 取 F(6= klogk 将 得 出 这 种 排序 方法 运行 时 间 的 首 项 ， 要 得 到 更 准确 的 分 析 |205 
也 是 可 能 的 ， 不 过 要 涉及 复杂 得 多 的 F(A。 207 


对 FU = 1, 将 立即 得 到 结果 4"/( ar 我 们 已 经 证 明 过 该 结果 渐 近 于 VzN 。 类 似 地 


对 F(K) = k 和 F(K) = 尼 ， 我 们 也 能 对 Catalan 和 导出 一 个 准确 的 值 ， 该 值 是 几 个 二 项 式 系数 的 
线性 组 合 ， 然 后 用 Stirling 逼 近 找到 一 些 渐 近 估 计 。 与 Batcher 法 中 的 分 析 一 样 ， 当 F(O) 更 加 
复杂 的 时 候 ， 本 节 的 方法 就 会 发 挥 作 用 。 我 们 对 天 (后 的 主要 假定 就 是 : 它 可 以 由 一 个 多 项 式 
来 限定 。 

和 定理 4.6 证 明 中 的 讨论 一 样 ， 我 们 将 对 Ramanujan C- 分 布 和 R- 分 布 的 乘积 进行 操作 : 





( 2N ) (2N)! 
N-k) _(N-kK)MUN +6)! 
2N (2N)! 
( w) NIN! 
NIN! N! NINE 


“(N-KUN+EL (N-KIN' (N +4)! 


于 是 ， 我 们 就 能 利用 定理 4.6 证 明 过 程 中 所 推导 的 结果 以 及 该 定理 的 推论 在 拉 普 拉 斯 方法 中 的 
应 用 来 求解 这 个 问题 了 。 对 于 一 个 小 常数 e> 0， 选 取 截 断 点 & = VN. RAAR TE 


mm fe ™(1+0{ar\) Mkt 
(N - ON +k)! leer") “4K > ko 时 


这 是 我 们 逼近 被 加 项 ， 然 后 应 用 拉 普 拉 斯 方法 所 需要 的 基本 信息 。 如 上 所 述 ， 我 们 利用 该 式 
的 第 一 部 分 来 逼近 和 的 主要 部 分 ， 用 第 二 部 分 来 对 尾部 定 界 : 





(wa 
N-k _ “RIN (1 \ 
之 oH FO- Five (of 
(x) 
其 中 ，A 仍 代表 指数 级 小 项 。 和 以 前 一 样 ， 我 们 仍 可 以 把 尾部 重新 加 入 进来 ， 因 为 对 上 > ko, 
exp(- 避 /N) 也 是 个 指数 级 小 量 ， 这 就 得 到 : 

定理 4.9 (Catalan 和 ) 如 果 F( 问 能 由 一 个 多 项 式 所 定 界 ， 则 


/的 -eta 


其 中 A 表示 指数 级 小 的 误差 项 。 
证 明 见 前 面 的 讨论 。 对 于 F 的 限制 是 保证 误差 项 为 指数 级 小 量 的 需要 的 。 a 


N 
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如 果 序 列 {F(k)} 是 一 个 充分 光滑 的 实 函 数 F(x) 的 特定 序列 ， 那 么 该 和 就 很 容易 用 欧 拉 一 麦 
克 劳 林 公式 来 和 逼近 。 实 际 上 ， 指 数 和 Fo) 的 导数 在 “处 很 快 就 会 消失 ， 因 此 所 有 误差 项 也 都 将 
在 那里 销 失 ， 并 且 在 5 的 性 能 的 适当 条 件 下 ， 我 们 期 望 有 


». mw (x "d / (w ) = fe Fade + of 


对 单 便 求 和 也 是 一 个 类 似 的 过 程 ， 其 中 对 的 限制 、 比 方 说 ， 是 非 负 的 ， 也 将 导致 受到 类 似 限 
制 的 积分 。 

Stirling 常 数 。 取 F(x) = 1 则 给 出 一 个 我 们 所 熟知 的 积分 ， 其 预期 的 解 为 VXN 。 事 实 上 ， 
正如 我 们 在 4.5 节 中 所 承诺 的 那样 ， 这 个 解 相当 于 Stirling 常 数值 的 一 个 导数 : 我 们 知道 ， 上 面 


的 和 等 于 42 人] ， 通 过 与 我 们 在 4.3 节 中 所 做 过 的 一 样 的 基本 处 理 可 知 它 渐 近 于 
oNTZ ,但 o 却 作为 一 个 未 知 量 留 在 了 Stirling 公 式 中 。 取 N 一 mw， 我 们 将 得 到 结果 0 = V27 。 
其 他 例子 。 在 一 个 2- 级 文件 中 ， 平 均 逆序 数 可 以 由 单 侧 形式 的 《( 即 £>0) Catalan 和 通过 


取 F(x) = z 来 得 到 。 这 个 积分 很 容易 计算 (分 部 积分 法 ) ， 其 渐 近 结果 为 VVxN /4 。 对 Batcher 
的 归并 方法 ， 我 们 利用 单 侧 和 ， 取 F(x) = xlgx + O(X)， 则 得 到 如 下 估计 


fee rigs dxr+ON) 
做 替换 ! = z2/NW， 将 把 积分 变换 成 另 一 个 众所周知 的 积分 一 “指数 积分 函数 " ， 其 渐 近 结果 为 
ENIgN+ O(N) | 


要 获得 关于 Fo 的 一 个 更 好 的 逼近 并 不 容易 ， 正 如 [20] 中 所 描述 的 ， 要 获得 更 准确 的 逼近 ， 必 
须 利用 复 分 析 。 表 4-12 总 结 了 这 些 结果 。 


表 4-12 Catalan 和 


ro Reed/ 人 ln 











1 AN 
2 
N 
k z 
kigk _Nign 
4 
N4“! 2a) ~ VaN? 
N 4 





N 3 
习题 4.72 求 关于 Sh) 的 渐 近 估计 。 
N! 
习题 4.73 求 关于 wip 的 渐 近 估计 。 


N-k? 
习题 4.74 axe D ) 的 渐 近 估计 。 


af i 18 if 135 





49 算法 分 析 中 的 “ 泊 松 ” 例 


另外 几 个 基本 算法 可 以 导出 对 最 大 项 在 开头 部 分 ， 且 后 面 的 项 最 终 为 指数 级 递减 的 和 的 
求 值 。 这 种 和 更 像 是 和 A<1 的 泊 松 分 布 。 这 种 和 的 一 个 例子 是 


(;| f(k) 

Zle) z 

Herh EE ani. fO — A E E RY PA o 
作为 一 个 例子 ， 我 们 考查 第 1 章 中 所 提 到 的 基数 交换 排序 法 ， 该 方法 与 第 7 章 中 的 “trie 树 ” 


数据 结构 有 着 紧密 的 联系 。 下 面 我 们 说 明基 数 交 换 排序 中 描述 位 检查 次 数 的 递归 的 解 将 涉及 
“trieg” 





展开 这 个 二 项 式 , 并 取 f(k) = (1), (1/2), (11/44, (-118)5… 等 等 ,将 得 到 上 面 形状 的 项 的 和 。 
利用 复 分 析 可 以 精确 地 计算 这 个 和 ， 但 利用 逼近 

fe) RS Nelo Spee 

1 U z7) l-e 
可 以 很 容易 地 得 到 一 个 非常 好 的 估计 。 我 们 可 以 证 明 ， 当 j<1lgN 时 ， 这 个 逼近 可 以 精确 到 
O(1/N)， 且 当 六 >lgN 时 ， 两 侧 都 非常 小 。 所 以 ,证 明 

Sy = SY(-e™?)+o() 

x e +o 

是 一 件 初等 的 事情 。 通 过 将 求 和 范围 分 成 三 个 部 分 ， 不 难得 到 该 和 的 一 个 好 的 估计 。 如 图 4-7 
所 示 ， 对 较 小 的 j， 被 加 项 在 1 附近 ， 对 较 大 的 j， 被 加 项 在 0 附近 ， 当 j 在 lgN 附 近 时 ， 被 加 数 从 
1 到 0 之 间 过 渡 。 更 确切 地 说 ， 当 j<(1 - ©) lgN 时 ， 被 加 项 非常 接近 于 1; >A + ©) lgN 时 ， 它 
又 非常 接近 于 0; 当 j 在 这 两 个 界 之 间 时 ， 该 和 无 疑 是 在 0 和 1 之 间 。 该 论证 证 明了 : 对 任何 s， 
一 直到 较 小 阶 的 项 为 止 ， 该 和 在 (1 - elgN 与 (1 + elgM 之 间 ; 更 精确 地 选择 界 ， 将 证 明 该 和 
~lgN. 





图 4-7 de") 中 的 项 的 渐 近 行为 


J> 0 





定理 4.10 (Trie 和 ) 当 N 一 % 时 ， 


Sy = 3(-(- 坟 ) = Ig N + O(loglog N) 
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证 明 在 上 面 的 论证 中 ， 取 界 为 lgN + lnlnN 即 可 。 更 详细 的 论证 可 用 来 证 明 S、 = lgN + 
0O(1)。 我 们 将 在 第 7 章 中 较 详细 地 分 析 函 数 S% - lgN。 E 


推论 基数 交换 排序 中 所 进行 的 位 检验 的 平均 次 数 是 NigN+ ON). 
证 明 如 1.5 节 中 所 讨论 过 的 ， 这 个 量 满足 递归 
Cv=N 2 Ne N>1, C, =0 
EDAG (N>1, C,=0, C, =0) 
两 端 乘 以 zx 并 关于 N 求 和 ， 将 得 到 一 个 简单 易 算 的 卷 积 , 该 卷 积 可 以 简化 下 面 这 个 结论 的 证 明 : 


EGFZw>oCwzWN! 必 定 满 足 函 数 方程 
C(z) = ze" -z + 2e? ReDD , 


正如 我 们 可 能 会 期 望 的 那样 ， 这 个 方程 也 能 通过 符号 方法 [10] 得 到 。 对 该 方程 进行 迭代 ， 我 们 
得 到 
C(z) = ze" — z+ 267” C(z/2) 


= re z 2et?lZgt? 2 4 re /A 
ze -z+2e0 (7 7 * 2e (z ) 


= z(e" -1) + z(e - e7?) + 4e” Cz 4) 
= z(e —1)+ z(e? -e )+ z(e -e *)+ 8e 8C(z/8) 


z ~27F ye 
-ee 2 =) 
J> 0 


因此 ， 
= Nilz*]C(z) = ny -(1- x) | 


f>0 


于 是 我 们 有 Cw = NSw- 1， 从 而 所 断言 的 结果 成 立 。 a 

在 第 7 章 将 进一步 讨论 ， 一 次 项 的 值 是 摆动 的 。 这 或 许 并 不 奇怪 ， 因 为 算法 处 理 的 是 位 ， 
且 具 有 2.6 节 中 所 讨论 的 某 些 算法 的 “二 元 分 治 ” 的 韵味 。 不 过 ， 这 一 问题 提出 了 重要 的 解析 
难题 ， 这 些 难 题 用 复 分 析 方法 将 得 到 4 最 好 的 处 理 。 


习题 4.75 求 一 个 关于 ,之 (dy) 的 渐 近 估计 。 
习题 4.76 对 :>>1， 求 一 个 关于 Ja- O pt. 


4.10 生成 函数 的 渐 近 性 
就 生成 函数 而 言 ， 符 号 法 使 我 们 分 析 大 量 复杂 的 组 合 问题 成 为 可 能 。 正 如 在 许多 例子 中 





CAMA. BATH REG RFE RR. HIRAM ARMAAA. 然而， 我 们 
无 疑 会 碰 到 许多 生成 函数 ， 对 它们 这 样 的 直接 展开 是 不 可 行 的 。 本 节 我 们 将 提出 一 个 直接 的 
方法 ， 即 使 是 对 复杂 的 生成 函数 而 言 ， 这 个 方法 也 是 非常 有 效 的 。 

收敛 半径 界 。 首 先 我 们 注意 : 了 解 一 个 生成 函数 的 收敛 半径 ， 可 以 提供 我 们 其 系数 增长 
速度 的 有 关 信 息 ， 这 一 点 自从 欧 拉 和 柯 西 以 来 就 为 人 们 所 知晓 。 

定理 4.11 (收敛 半径 界 ) 设 f(z) 是 一 个 收 化 半 径 R>0 的 舌 级 数 ， 则 对 任何 正 数 7 < 

R， 有 

[z"]f(z)= O(r™) 


证 明 任 取 r 满 足 0<r<R， 并 令 f, Hh. REDS PECAN: AER a 
F0, 尤其 是 它 的 上 界 被 一 个 常数 所 限定 。 E 

例如 ，Catalan 生 成 函数 对 于 lzl<U4 收 敛 ， 因 为 它 舍 有 (1 - 4), ATRL +u) Ahul 
< 1 收敛 。 这 就 给 出 了 它 的 界 为 





ry TE = O((4 + Ey") 
其 中 s 是 任意 的 ， 这 是 由 Stirling 公 式 所 导出 的 一 个 较 弱 的 形式 。 
就 组 合生 成 函数 而 言 ， 定 理 4.11 的 界 是 可 以 被 加 强 的 。 更 一 般 地 ， 设 f(z) 具 有 正 系数 ， 
那么 
(2"1F(2) < min FX 


x@0,R) x” 





该 结 果 可 以 简单 地 从 fx*< 了 CO 且 fx" 只 是 一 个 收敛 的 正 项 和 中 的 一 项 而 证 得 。 特 别 地 ， 我 们 
将 在 第 6 章 中 讨论 带 有 约束 圈 长 的 排列 时 ， 要 利用 这 个 非常 一 般 的 定 界 技巧 。 
习题 4.77 证 明 存 在 一 个 常数 C， 满 足 
[z”]Jexp(z/(1 - z)) = O(exp(CVn)) 
习题 4.78 关于 整数 分 拆 的 OGF 
if [a- 27" 
确定 类 似 的 界 。 


系数 的 渐 近 分 析 。 通 过 对 生成 函数 的 直接 考察 ， 我 们 不 仅 常常 能 够 导出 上 界 ， 而 且 也 能 
导出 渐 近 等 价 性 。 我 们 在 4.1 节 中 讨论 有 理 生 成 函数 的 内 容 时 ， 已 经 见 到 过 关于 这 个 问题 的 一 
个 具体 例子 。 例 如 ， 如 果 g(z) 是 一 个 多 项 式 ，r 是 一 个 整数 ， 那 么 部 分 分 式 分 解 产 生 

[2"] 82 207) -ed 
(1-zy n (r-D! 





4 REE a e(1) 关 0。 实 际 上 ， 一 个 更 一 般 的 结果 也 成 立 : 
定理 4.12 (KAFAEL) ” 设 g(z) 具 有 严格 大 于 1 的 收敛 半径 且 假 定 g(1) * 0。 则 对 任 
意 的 实数 a EO,-1,-2,--F, 下 式 成 立 


ny &(2) me) 
z ~ ofl 
"Ge sof n 





N 
_ 
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证 明 设 g(z) 的 收敛 半径 >r， 其 中 r> 1。 根 据 第 一 个 定理 ， 我 们 知道 gm {z"]g(z) = Or”), 
特别 地 ， 和 2,8" 以 几何 速度 收敛 到 8(1)。 





接 下 来 就 是 分 析 如 下 卷 积 : 
ny 82) _ n+a-1 n+a-2 a-l 
egia n Jea n-1 Jera a) 


(eri sel n \ n(n-1) 
n Bo Snra-1) 82 nra- Dn+a-—2) 


rer nD | 
(nt+a-l1)\(n+a-2)(n+a-—-3) 


该 和 中 带 有 下 标 j 的 项 就 是 


n(n-1)--(n-j+1) 
8 (n+a-iXn+a-2)--(n+a-j) 


当 n 一 %， 它 趋向 于 g;。 由 此 ， 我 们 推 得 


a /n+oa-l n+a-!l 
[z” ]8(z)(1 —z) -| n eta) ~ 80 n ) 
因为 部 分 和 go + 81+…+ gs 以 几何 速度 收敛 到 g(1)。 a 
习题 4.79 对 上 面 的 断言 给 出 详细 的 证 明 。 
对 各 种 特定 的 值 a， 我 们 可 以 导出 更 详细 的 浙 近 界 。 根 据 欧 拉 -- 麦 克 劳 林 公 式 ， 二 项 式 系 


-1 
数 ( } #00", 且 常 数 也 是 已 知 的 (见习 题 4.80)。 例 如 ， 我 们 已 经 见 到 过 (在 3.4 节 ) 


n-12 fy 
Wie ee oe 
应 用 这 种 技巧 的 一 个 著名 的 例子 (参见 Comtet[51) 就 是 将 其 用 于 函数 


2 
Z712+2 /4 
e 


f@) =F 
即 所 谓 的 2- 正 则 图 的 EGF。 它 含有 分 子 g(z) = exp(z/2 + z2%4)， 其 收敛 半径 显然 为 "。 于 是 定理 
4.12 将 立即 给 出 
[z ]f(z) inn 
利用 诸如 定理 4.12 的 结果 ， 系 数 的 渐 近 形式 可 直接 从 形 如 (1 - z)“ 的 元 素 ( 称 为 “奇异 ” 
元 素 ) 转换 而 来 ， 这 种 元 素 所 起 的 作用 与 有 理 函 数 分 析 中 的 部 分 分 数 元 素 所 起 的 作用 非常 类 
似 。 系 数 的 渐 近 形式 能 被 如 此 简单 的 方式 进行 解释 是 相当 出 平 意料 的 。 在 第 6 章 ， 我 们 还 将 看 
到 更 多 的 与 排列 有 关 的 这 种 例子 。 
定理 4.12 能 自然 地 应 用 于 许多 我 们 将 要 遇 到 的 具有 不 同 收敛 半径 的 生成 函数 乘积 的 场合 。 
该 定理 只 是 全 部 类 似 结果 中 最 简单 的 一 个 ， 这 些 结果 是 由 Darboux 于 上 上 个 世纪 开始 提出 〈 参 
见 [5] 和 [22])， 并 由 Polya 和 Szeg6，、 Bender 以 及 其 他 一 些 学 者 等 人 [3][9] 进 一 步 发 展 而 得 来 的 。 
这 些 方法 在 [11] 中 有 详细 的 讨论 ， 不 像 我 们 在 这 里 所 能 够 做 的 ， 对 这 些 方 法 完整 的 研究 需要 复 





AE BLE. PPO UL ENS ERA FH DMF (singularity analysis). 
习题 4.80 证 明 : ARARATO, A 


_ n+a-l\ na! 
(E ra 





(提示 : 利用 哆 拉 -- 麦 克 劳 术 求 和 。) FRM(@DLRLAAHAAA WERK, CEMRBRE 
广 到 了 整数 范围 之 外 ， 参 见 [21]。 

习题 4.81 证 明 : 在 定理 4.12 的 条 件 下 ， 可 以 导出 一 个 完全 渐 近 展开 式 。 

习题 4.82 将 该 方法 推广 到 下 列 式 子 的 分 析 中 


golg 和 at} $2 og_t- 
1-z 1-z l-z 

渐 近 方法 在 算法 分 析 中 起 着 重要 的 作用 。 如 果 没 有 渐 近 性 ， 我 们 可 能 还 停留 在 极为 复杂 
的 准确 答案 状态 ， 或 是 难以 计算 的 闭 型 解 式 状 态 。 利 用 渐 近 性 ， 我 们 可 以 把 注意 力 集中 在 解 
的 那些 对 答案 影响 最 大 的 部 分 上 面 。 这 种 来 自 于 分 析 的 特别 的 洞察 能 力 在 算法 设计 过 程 中 也 
起 着 一 定 的 作用 : 当 我 们 试图 改进 一 个 算法 性 能 的 时 候 ， 我 们 将 把 注意 力 集中 在 算法 的 某 些 
部 分 上 上， 这些 部 分 恰好 就 是 我 们 在 渐 近 分 析 中 所 关注 的 那些 项 。 

理解 在 渐 近 分 析 中 经 常 使 用 的 各 种 记号 的 区 唱 是 至 关 重 要 的 。 在 本 章 中 ， 我 们 引入 了 许 
多 基本 的 习题 和 例子 ， 以 助 于 阐明 这 些 区 别 ， 我 们 鼓励 读者 对 它们 进行 仔细 的 研究 。 正 确 地 
使 用 基本 定义 和 基本 操作 将 能 够 大 大 简化 渐 近 公式 。 

对 生成 函数 而 言 ， 渐 近 分 析 的 许多 基本 资料 都 是 伴随 着 与 著名 的 经 典 展开 式 相 结合 而 产 
生 的 ， 因 为 生成 函数 与 著名 的 特殊 数 有 着 密切 的 联系 ， 如 Stirling 数 、 调 和 数 、 几 何 级 数 ， 以 
及 二 项 式 系 数 等 。 代 数 操作 和 化 简 也 起 着 重要 的 作用 。 事 实 上 ， 在 这 样 的 计算 中 ， 控 制 细节 
的 能 力 将 会 使 汤 近 表达 式 变 得 很 有 魅力 。 

我 们 详细 考查 了 这 些 方法 的 应 用 ， 以 导出 二 项 分 布 逼 近 中 的 两 个 最 重要 的 逼近 : ES 
近 和 泊 松 逼近 。 我 们 还 考查 了 由 Ramanujan 和 Knuth 所 研究 过 的 、 将 会 在 许多 算法 分 析 中 出 现 
的 一 些 相关 的 函数 。 这 些 逼 近 不 仅 在 算法 分 析 中 极为 重要 ， 而 且 它 们 还 是 经 常 出 现 的 一 类 操 
作 的 原型 。 

我 们 把 精力 集中 在 来 自 实 分 析 的 所 谓 的 基本 方法 上 面 。 在 基本 方法 中 ， 熟 练 程度 是 很 重 
要 的 ,尤其 是 化 简 复 杂 的 渐 近 表达 式 、 细 化 估计 、 用 积分 逼近 和 ， 以 及 尾部 定 界 ， 包 括 拉 普 
拉 斯 方法 等 等 。 对 渐 近 分 析 更 好 的 理解 依赖 于 对 复 平面 上 函数 性 质 的 理解 。 令 人 惊讶 的 是 ， 
强大 的 方法 只 源 自 于 几 个 基本 的 性 质 ， 尤 其 是 生成 函数 的 奇异 性 。 我 们 对 基本 方法 给 出 了 一 
个 一 般 性 的 概念 ， 详 细 的 考查 在 [111 中 可 以 找到 。 由 于 答案 中 会 出 现 复数 值 ， 因 而 在 详尽 的 渐 
近 分 析 中 ， 往 往 避 免不了 先进 的 技巧 。 特 别 地 ， 我 们 看 到 许多 例子 ， 随 着 我 们 所 研究 的 函数 
的 增长 ， 出 现 了 一 种 摆动 现象 。 这 似乎 有 些 出 人 意料 ， 但 当 我 们 想到 这 种 现象 也 曾 出 现在 我 
们 最 基本 的 算法 中 ， 包 括 分 治 方法 如 Mergesort 或 涉及 整数 的 二 进 制 表示 法 ， 这 种 现象 也 就 不 足 
为 怪 了 。 复 分 析 提 供 了 一 个 简单 的 方法 来 解释 这 种 现象 。 

我 们 可 以 用 类 似 于 上 一 章 的 方式 来 结束 本 章 : 本 章 所 给 出 的 方法 ， 可 以 使 我 们 在 对 基本 
计算 机 算法 重要 性 质 的 研究 中 走 得 更 远 。 这 些 技巧 对 我 们 在 第 5 到 第 8 章 处 理 与 树 、 排 列 、 串 
及 映射 等 有 关 的 算法 中 将 发 挥 重要 的 作用 。 
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第 5 章 树 


树 是 在 许多 实际 算法 中 直接 和 间接 用 到 的 基本 结构 ， 为 了 能 够 分 析 这 些 算 法 ， 理 解 树 的 
性 质 是 很 重要 的 。 许 多 算法 直接 构建 树 ; 在 另外 一 些 情 形 下 ， 树 作为 程序 特别 是 递归 程序 的 
模型 发 挥 着 重要 的 作用 。 事 实 上 ， 树 是 重要 的 经 典 递 归 定 义 的 对 象 : 一 棵 树 或 者 为 空 ， 或 者 
是 连接 一 系列 树 (或 树 的 多 重 集 ) 的 一 个 根 结 点 。 我 们 将 详细 考察 结构 的 递归 性 质 如 何 直接 
得 出 基于 生成 国 数 的 递归 分 析 。 

本 章 的 讨论 从 二 又 树 开始 ， 它 是 一 种 特殊 类 型 的 树 ， 最 初 在 第 3 章 引 入 。 二 又 树 有 很 多 有 
用 的 应 用 ,而 且 特 别 适合 用 于 计算 机 实现 。 然 后 ， 我 们 一 般 地 考虑 树 的 性 质 ， 包 括 它们 与 二 
又 树 的 紧密 关系 。 树 和 二 又 树 也 直接 与 若干 像 格 路 径 、 三 角 训 分 和 破产 序列 等 其 他 组 合 学 结 
构 相 关 。 我 们 讨论 多 种 不 同 的 表示 树 的 方法 不 只 是 因为 它们 常常 出 现在 应 用 中 ， 而 且 还 因为 
更 换 表示 方法 时 常常 使 得 解析 论述 更 容易 理解 。 

我 们 从 纯 组 合 学 的 观点 (在 这 里 列举 并 考查 所 有 可 能 不 同 的 结构 的 性 质 ) 以 及 算法 的 观 
点 〈 此 时 这 些 结构 由 算法 建立 和 使 用 ， 每 种 结构 出 现 的 概率 由 输入 产生 ) 考虑 二 又 树 。 前 者 
在 递归 结构 和 算法 分 析 中 很 重要 ， 后 者 最 重要 的 实例 是 称 为 二 又 树 搜索 (binary tree search) 
的 基本 算法 。 二 又 树 和 二 又 树 搜索 在 实践 中 是 如 此 重要 ， 我 们 需要 相当 详细 地 研究 它们 的 性 
质 ， 在 第 3 章 开始 处 理 的 基础 上 进行 更 充分 的 讨论 。 

像 通常 一 样 ， 在 考虑 计数 问题 之 后 ， 我 们 转 到 参数 分 析 。 重 点 在 于 路 径 长 《path length) 
分 析 ， 它 是 树 的 基本 参数 ， 学 习 它 很 自然 ， 了 解 它 也 很 有 用 。 我 们 还 要 考虑 高 (height) 和 某 
些 其 他 的 参数 。 关 于 各 种 类 型 的 树 的 路 径 长 和 高 的 基本 知识 对 于 我 们 能 够 理解 各 种 基本 的 计 
算 机 算法 是 至 关 重 要 的 。 对 这 些 问题 的 分 析 是 以 那些 基础 结构 的 经 典 组 合 学 的 研究 和 现代 算 
法 研究 间 的 关系 为 原型 的 ， 是 本 书 反 复出 现 的 论题 。 

我 们 将 看 到 ， 一 方面 路 径 长 分 析 自 然 地 安排 在 我 们 已 经 开发 的 基本 工具 之 后 ， 并 且 这 种 
分 析 经 过 推广 以 提供 一 种 研究 更 广泛 的 树 参数 的 方法 。 另 一 方面 ， 高 的 分 析 却 提出 了 重要 的 
技术 挑战 ， 同 时 也 需要 我 们 在 第 2 章 到 第 4 章 涉 及 的 大 部 分 主要 工具 。 虽 然 在 减轻 描述 问题 和 
降低 求解 问题 的 困难 之 间 没 有 任何 必然 的 关系 ， 但 是 在 分 析 难 度 缓解 中 的 差距 初 看 起 来 多 少 
有 些 令 人 惊奇 ， 因 为 两 种 参数 都 有 简单 的 递归 表述 ， 这 些 表述 非常 类 似 。 

第 3 章 讨 论 过 ， 经 典 组 合 数学 中 的 “符号 方法 ”能 够 使 得 树 计 数 问题 的 研究 和 树 参 数 的 分 
析 统 一 起 来 ， 导 致 许多 其 他 难以 处 理 的 问题 得 到 非常 直接 的 解法 。 为 获得 最 佳 效 果 ， 这 需要 
在 某 些 基 本 的 组 合 学 工具 方面 适当 的 投入 〈 见 [131) ， 因 此 ， 我 们 对 本 章 考 虑 的 许多 重要 问题 
提供 直接 的 解析 推导 ， 同 时 也 提供 对 结果 如 何 能 够 由 符号 论证 进行 解释 的 非 正式 描述 。 这 一 
章 的 详细 研究 也 可 以 作为 一 道 用 以 理解 符号 方法 意义 的 习题 来 刻画 其 特征 。 

然后 我 们 考虑 一 些 不 同类 型 的 树 ， 和 关于 树 的 性 质 的 某 些 经 典 组 合 学 结果 ， 从 二 又 树 的 
具体 细节 转 到 树 作为 无 圈 连 通 图 的 一 般 概 念 。 我 们 的 目标 是 提供 通 向 树 的 组 合 学 分 析 广 泛 文 
献 结果 的 途径 ， 同 时 ， 也 提供 大 量 算法 应 用 的 基础 性 工作 。 


51 Zx 
在 第 3 章 我 们 遇 到 二 又 树 , 或 许 它 是 最 简单 的 一 种 树 。 二 又 树 由 两 种 不 同类 型 的 结 点 组 成 ， 
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它们 按照 简单 的 递归 定义 被 连接 在 一 起 : 


定义 一 棵 二 叉 树 或 者 是 一 个 外 部 结 点 ， 或 者 是 一 个 连接 两 棵 有 序 的 二 又 树 的 内 部 结 
点 ， 这 两 棵 有 序 的 二 又 树 分 别 叫做 该 结 点 的 左 子 树 和 右 子 树 。 


通常 外 部 结 点 用 于 表示 空 二 叉 树 。 它 们 同样 可 以 作为 占 位 符 使 用 。 除 非 课文 中 同时 在 孝 
虑 两 种 结 点 ， 否 则 我 们 就 把 内 部 结 点 简单 地 叫做 树 的 “ 结 点 "。 正 常情 况 下 我 们 认为 一 个 结 点 
的 两 棵 子 树 由 两 个 链 连 接 到 该 结 点 上 ， 这 两 个 链 是 左 链 和 右 链 。 

图 5-1 显 示 三 棵 二 义 树 ， 而 图 5-2 中 画 出 14 棵 二 又 树 ， 每 棵 都 有 四 个 内 部 结 点 〈 和 五 个 外 部 
结 点 )。 根 据 定义 ， 每 个 内 部 结 点 正好 有 两 个 链 ; 按照 习惯 ， 我 们 把 每 个 结 点 的 子 树 画 在 该 结 
点 的 下 面 ， 而 把 链 用 连接 结 点 的 线 来 表示 。 除 去 顶 上 的 结 点 外 ， 每 个 结 点 恰好 有 一 个 链 通 向 
它 ， 顶 上 的 特殊 结 点 叫做 根 《root)。 习 惯 上 我 们 借用 族谱 中 的 术语 : 位 于 结 点 直接 下 方 的 结 
点 叫做 该 结 点 的 子 结 点 ; 再 往 下 面 的 那些 结 点 叫做 该 结 点 的 后 裔 结 点 ; 每 个 结 点 直接 上 方 的 
结 点 叫做 它 的 父 结 点 ; 再 往 上 面 的 结 点 叫做 那个 结 点 的 祖先 结 点 。 外 部 结 点 没有 子 结 点 ， 而 
根 结 点 没有 父 结 点 

引 理 在 任意 一 棵 二 又 树 中 ， 外 部 结 点 的 个 数 恰好 比 内 部 结 点 的 个 数 多 1。 


证 明 ” 令 e 是 外 部 结 点 的 个 数 ，i 为 内 部 结 点 的 个 数 。 我 们 以 两 种 不 同 的 方法 对 树 的 链 
进行 计数 。 每 个 内 部 结 点 恰好 有 两 个 链 从 它 发 出 ， 因 此 链 的 总 数 是 2i。 但 是 链 的 总 数 还 等 
于 i + e - 1， 因 为 除去 根 外 每 个 结 点 恰好 有 1 个 链 通 向 它 。 使 这 两 个 数 相等 , 得 到 2i = i+e 一 1， 
或 即 i =e 一 1。 | 

习题 5.1 利用 归纳 法 写 出 上 面 结 果 的 另外 的 证 明 。 

我 们 已 经 考虑 了 二 又 树 的 计数 问题 : 下 面 的 基本 结果 在 第 3 章 和 第 4 章 有 过 详细 描述 。 


a 


图 5-1 三 棵 二 又 树 


让 人 
eh Re 


图 5-2 具有 四 个 内 部 结 点 的 二 又 树 





ay 143 


定理 5.1 (二 又 树 的 计数 ) 具有 N 个 内 部 结 点 和 N + 1 个 外 部 结 点 的 二 又 树 的 裸 数 由 


Catalan 数 给 出 : 
N 
trea wy)" 4 =(1+0{5}] 


N+1\N) Jaw AN/ 
证 明 我 们 简要 叙述 3.8 节 给 出 的 证 明 。 令 表示 所 有 二 又 树 的 集合 ， 相 关 的 常规 生成 函数 为 


T(z)= > z" = pe 


就 是 说 T = [M0 是 具有 N 个 内 部 结 点 的 二 又 树 的 棵 数 。 另 外 zT(z) 还 是 由 外 部 结 点 计数 的 树 
的 OGF， 因 为 [zz7(z) = Ty- 是 具有 N 个 外 部 结 点 的 二 又 树 的 棵 数 。 

一 棵 二 又 树 或 者 是 一 个 外 部 结 点 ， 或 者 是 一 个 连接 两 哥 有 序 二 叉 树 的 内 部 结 点 ， 于 是 ， 
符号 方法 告诉 我 们 





T={0} +(x Tx T 
这 直接 变换 成 函数 方程 
T(z) = 1 + zT(z)? 
(注意 ， 外 部 结 点 的 计数 给 出 等 价 的 形式 zT(z) = z + TOY) 利用 二 次 公式 求解 并 用 二 项 式 定 
理 展开 ， 得 到 


eT) =5(1-vi-42) - EDP EA 


令 系 数 相 等 则 得 到 Catalan 数 





T. __if > CA 1 C 
v= 2| 1) Nel w) 
该 近似 值 直接 从 Stirling 近 似 〈( 见 定理 4.3 的 推论 ) 得 到 。 n 


在 第 3 章 ， 我 们 还 看 到 一 些 相关 的 问题 ， 像 对 二 叉 树 的 森林 计数 、 对 树叶 计数 等 等 。 在 
这 一 章 ， 我 们 将 对 更 加 复杂 的 问题 使 用 类 似 的 工具 ， 以 便 发 现 二 又 树 和 其 他 类 型 的 树 的 有 趣 
性 质 。 

从 现在 起 我 们 通过 内 部 结 点 来 对 树 进行 计数 。 对 于 二 叉 树 ， 由 上 面 的 引 理 可 知 这 是 严格 
等 价 的 ， 有 些 其 他 类 型 的 树 没有 外 部 结 点 。 

习题 5.2 ”在 所 有 具有 N 个 结 点 的 二 叉 树 当中 点 多 大 比例 的 二 叉 树 其 根 的 两 棵 子 树 均 非 
空 ? 对 于 和 N =4， 答 案 是 4/14 ( 见 图 5-2)。 

习题 5.3 ”在 所 有 具有 2N + 1 个 内 部 结 点 的 二 叉 树 当中 占 多 大 比例 的 二 又 树 其 根 的 每 哥 子 
树 都 有 N 个 内 部 结 点 ? : 


5.2 树 和 森林 


在 二 叉 树 中 不 存在 有 多 于 两 个 子 结 点 的 结 点 。 这 个 特点 使 得 在 计算 机 的 实现 中 如 何 表示 
和 处 理 这 样 的 树 变 得 很 明显 ， 而 这 又 自然 地 涉及 把 一 个 问题 分 成 两 个 子 问题 的 “分 治 算法 ”。 
然而 ， 在 许多 应 用 中 (以 及 更 传统 的 数学 应 用 中 ) 我 们 需要 考虑 一 般 的 树 。 
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定义 ”一 棵 树 〈 也 叫做 一 般 树 ) 是 一 个 连接 到 一 系列 不 相交 的 树 的 结 点 (叫做 根 )。 

这 样 的 一 个 树 的 序列 叫做 森林 。 

我 们 使 用 和 二 又 树 相同 的 命名 法 则 : 一 个 结 点 的 子 树 是 它 的 子 结 点 ， 根 结 点 没有 父 结 点 ， 
等 等 。 对 于 某 些 计算 而 言 ， 树 是 比 二 又 树 更 合适 的 模型 。 

所 有 5 个 结 点 的 树 如 图 $-3 所 示 。 这 样 的 树 的 数目 和 具有 4 个 内 部 结 点 的 二 又 树 的 数目 相同 
的 事实 不 是 巧合 。 事 实 上 如 所 周知 ， 一 般 树 在 组 合 学 上 是 与 二 又 树 紧 密 相关 的 。 下 面 我 们 考 
查 建 立 这 种 关系 的 结构 ， 不 过 首先 我 们 考虑 基于 符号 方法 的 解析 证 明 。 


KA 全 全 
太太 不 处 信任 


图 5-3 具有 5 个 结 点 的 树 


定理 5.2 (一 般 树 的 计数 ) ” 令 Gw 为 具有 N 个 结 点 的 一 般 树 的 数目 。 则 Gw 洽 好 等 于 具有 
N- 1 个 内 部 结 点 的 二 又 树 的 数目 ， 并 且 该 树 由 Catalan 数 给 出 : 


1 /2N-2 
| wai) 


证 明 考虑 生成 函数 


G(z) = ae 


其 中 G 为 所 有 树 的 集合 。 此 时 ， 由 于 一 棵 树 可 以 有 任意 棵 的 子 树 ， 而 这 些 子 树 也 是 树 ， 因 此 我 


们 有 
G(z) = > >” yee 
= 2> (G(z))* 
0 


2 < 
1- G(z) 
这 样 G(z) - G(z = z， 从 而 我 们 得 到 G(z) = zT(z)， 因 为 这 两 个 函数 都 满足 相同 的 函数 方程 。 这 
就 是 说 ， 具 有 AN 个 结 点 的 树 的 数目 等 于 具有 N 个 外 部 结 点 的 二 又 树 的 数目 ， 也 就 是 具有 N - 1 
个 内 部 结 点 的 二 叉 树 的 数目 。 a 
这 个 结果 也 可 以 容易 地 通过 符号 方法 得 到 。 一 个 森林 或 者 为 空 ， 或 者 为 一 系列 的 树 : 
六 =e+G+GxG)+(GxGxG)+(GxGxGxG)+… 
它 可 以 直接 变换 ( 见 定理 3.7) 成 





2 3 4 1 
F(z) =1+ G(z) + G(z)° + GKY + G(z) += ED 
这 种 在 森林 和 树 ( 切 掉 根 ) 之 间 明 显 的 一 一 对 应 意味 着 zF(z) = G(z)， 它 又 导出 CatalanOGF 的 
函数 方程 。 

习题 5.4 对 于 := 1、2 和 3，( 渐 近 地 ) 找 出 其 根 有 It 个 子 结 点 的 那些 树 所 占 的 比例 。 

旋转 对 应 。 在 森林 和 二 又 树 之 间 存 在 一 种 容易 构造 的 一 一 对 应 ， 使 得 二 又 树 能 够 用 在 计 
算 机 上 表示 一 片 森林 。 这 种 对 应 叫做 旋转 对 应 ， 或 者 叫做 “第 一 个 儿子 ， 下 一 个 兄弟 ”表示 
法 ， 见 图 5$-4 中 的 解释 。 给 定 一 片 森林 ， 它 可 以 被 一 棵 二 叉 树 表示 如 下 : 二 又 树 的 根 为 森林 中 
第 一 棵 树 的 根 ; 它 的 右 链 指向 森林 其 余部 分 的 表示 结果 (不 包括 第 一 棵 树 ) ; 它 的 左 链 指 向 
由 第 一 棵 树 的 根 的 那些 子 树 组 成 的 森林 的 表示 结果 。 换 名 话说 ， 每 一 个 结 点 有 一 个 链接 到 它 
的 第 一 个 子 结 点 左 链 和 一 个 链接 到 它 在 森林 中 下 一 个 兄弟 结 点 的 右 链 。 对 于 图 $-4， 二 又 树 中 
的 那些 结 点 好 像 是 一 般 树 按照 顺 时 针 旋转 方向 放置 的 。 

习题 5.5 描述 一 棵 给 定 的 二 叉 树 如 何 被 表示 成 一 片 森林 。 


(5) 
(5) A 
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图 5-4 在 树 和 二 又 树 之 间 的 旋转 对 应 





5.3 树 的 性 质 


树 自然 地 出 现在 计算 机 的 各 种 应 用 中 。 树 的 大 小 的 概念 对 于 一 般 树 通常 指 得 是 结 点 的 个 
数 ， 而 对 于 二 又 树 ， 也 可 能 是 内 部 结 点 数 或 外 部 结 点 数 ， 这 要 看 上 下 文 的 情况 而 定 。 对 于 算 
法 分 析 ， 我 们 主要 的 兴趣 在 于 给 定 大 小 的 树 的 两 个 基本 性 质 : 路 径 长 和 高 。 

我 们 常常 谈 到 树 中 结 点 的 层 : 根 结 点 位 于 0 层 上 ， 根 的 子 结 点 在 第 1 层 ， 一 般 地 ， 第 k 层 的 
结 点 的 子 结 点 在 第 E + 1 层 上 。 另 外 一 种 思考 层 的 方法 是 从 根 到 当前 结 点 所 必须 经 过 的 距离 
( 链 的 数目 )。 我 们 特别 对 从 每 个 结 点 到 根 的 距离 的 和 有 特殊 的 兴趣 。 

定义 ”给 定 一 哥 树 :， 树 ! 中 的 每 一 个 结 点 的 层 的 和 是 路 径 长 ， 该 树 所 有 结 点 中 层 的 最 

大 值 为 树 的 高 。 

我 们 使 用 记号 gl 表示 树 ! 的 结 点 的 个 数 ， 用 记号 x(D 表 示 路 径 长 ， 而 用 7(D 表 示 树 的 高 。 这 
些 定义 对 于 森林 也 是 成 立 的 。 此 外 ， 森 林 的 路 径 长 是 组 成 该 森林 的 树 的 路 径 长 的 和 ， 而 森林 
的 高 是 组 成 该 森林 的 树 的 高 的 最 大 值 。 

定义 “给 定 一 哥 二 又 树 !， 其 内 部 路 径 长 为 树 ! 中 每 个 内 部 结 点 的 层 的 和 ， 外 部 路 径 长 

是 树 ! 中 每 个 外 部 结 点 的 层 的 和 ， 它 的 高 为 该 树 所 有 外 部 结 点 中 的 层 的 最 大 值 。 

我 们 用 记号 r(9 表 示 二 又 树 的 内 部 路 径 长 ，&0) 表 示 外 部 路 径 长 ， 而 用 9CD 表 示 二 又 树 的 高 。 
除非 在 课文 中 特别 声明 用 外 部 结 点 或 所 有 结 点 进行 计数 更 合适 外 ， 我 们 一 般 都 用 由 表示 二 叉 树 
的 内 部 结 点 的 个 数 。 


定义 在 一 般 树 中 ， 树 叶 被 定义 为 那些 没有 子 结 点 的 结 点 。 在 二 叉 树 中 ， 树 叶 被 定义 
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为 其 两 个 子 结 点 都 是 外 部 结 点 的 (内 部 ) 结 点 。 


图 5$-4 中 右边 的 二 叉 树 高 为 5， 内 部 路 径 长 为 25 ， 而 外 部 路 径 长 为 47 ， 有 4 片 树叶 ; 左边 的 
森林 高 为 2， 路 径 长 为 8， 有 7 片 树叶 。 
递归 定义 。 对 于 树 的 参数 ， 使 用 递归 定义 常常 很 方便 。 在 二 又 树 ! 中 ， 如 果 t 是 一 个 外 部 结 
点 ， 则 我 们 刚刚 定义 的 那些 参数 均 为 0; BMRA TAMAR, HA. Beal 
用 4 和 表示 ， 则 有 下 列 递 归公 式 : 
lti=it i+lt,1+l 
ND) = Nt) + Wt, )+ ltl- 
&(t) = EC) + E(t,)+1il+l 
n(t) =1+ max(n(t), ni,» 


容易 看 出 ， 这 些 公式 与 上 面 的 定义 是 等 价 的。 首先 ， 二 叉 树 的 内 部 结 点 数 是 它 的 子 树 的 结 点 
个 数 的 和 加 1 ( 根 )。 其 次 ， 内 部 路 径 长 是 它 的 子 树 的 内 部 路 径 长 的 和 加 i - 1， 因 为 在 这 些 子 
树 中 的 li - 1 个 结 点 中 的 每 一 个 结 点 当 子 树 连接 到 原 树 上 时 都 下 移 恰好 1 层 。 同 样 的 论断 对 于 
外 部 路 径 长 也 是 成 立 的 ， 但 应 指出 ， 具 有 I 个 内 部 结 点 的 二 叉 树 的 两 棵 子 树 有 tl + 1 个 外 部 结 
点 。 关 于 高 的 结果 由 下 面 的 事实 得 出 : 子 树 上 所 有 结 点 的 层 恰好 都 比 原来 的 层 增 1。 

习题 5.6 给 出 描述 一 般 树 的 路 径 长 和 高 的 递归 公式 。 

习题 5.7 给 出 二 叉 树 中 以 及 一 般 树 中 树叶 数目 的 递归 公式 。 

当 我 们 下 面 对 参数 进行 分 析 的 上 时候， 上面 这 些 定义 将 作为 根据 相关 的 生成 函数 推导 出 函 
数 方程 的 基础 。 此 外 ， 它 们 还 可 用 于 对 参数 间 的 关系 的 归纳 证 明 。 


引 理 任意 二 又 树 t 中 的 路 径 长 满足 5E(1) = nA) + 21d, 


证 明 ”从 方程 5(7) = E(t) + E(t) tll + 1 减 去 方程 r(D = na) + n) + ~ 1， 该 引 理 直接 由 
归纳 法 得 到 。 
路 径 长 和 高 不 是 独立 的 参数 : 如 果 高 很 大 ， 那 么 路 径 长 必然 也 大 ， 如 下 面 的 界 所 示 ， 这 
个 公式 相对 粗糙 ， 不 过 有 用 。 
引 理 任意 非 空 二 又 树 ! 的 高 和 内 部 路 径 长 满足 不 等 式 
mo < nit) < Van +1 


证 明 ”给 定 高 度 后 ， 依 据 路 径 长 直接 的 界 得 到 。 如 果 7(D = 0, Mine) = 0 并 且 所 述 不 等 式 
成 立 。 否 则 ， 我 们 必然 有 zr(D <W ， 因 为 每 个 内 部 结 点 的 层 必然 严格 小 于 树 的 高 。 不 仅 如 
此 ， 在 每 个 小 于 高 的 层 上 至 少 存在 一 个 内 部 结 点 ， 因 此 我 们 必然 有 r(D) > Zo<i<nwi。 因 此 ， 
2x(D > ni? - nl) > NO - 1? (从 右边 减 去 量 m?) - 1, 它 是 非 负 的 )， 从 而 ID < V2) +1. 
将 这 两 个 不 等 式 结合 起 来 ， 最 后 得 到 引 理 的 结果 。 = 

在 各 种 类 型 “随机 ” 树 的 算法 分 析 中 ， 我 们 特别 对 于 这 些 参数 的 平均 值 有 兴趣 。 本 章 我 
们 主要 的 讨论 课题 之 一 是 这 些 量 如 何 与 基本 算法 相关 的 以 及 我 们 如 何 能 够 确定 它们 的 期 望 值 。 
图 5-5 和 图 5-6 给 出 对 于 不 同类 型 的 树 这 些 量 如 何不 同 的 启示 。 图 5-5 是 一 棵 随机 二 叉 树 ， 此 时 
每 棵 二 又 树 被 认为 是 等 可 能 地 出 现 的 。 图 5-6 是 一 片 随机 森林 ， 其 中 每 片 森林 都 是 等 可 能 地 出 
现 的 。 每 幅 图 还 有 在 每 层 上 的 结 点 个 数 的 标示 ， 这 些 标示 使 得 计算 高 ( 层 数 ) 和 路 径 长 (用 i 
乘 以 在 层 的 结 点 数 并 对 i 求 和 ) 更 容易 。 显 然 ， 随 机 二 叉 树 的 路 径 长 和 高 的 值 要 比 随机 森林 的 
值 大。 本 章 主 要 目标 之 一 是 精确 地 确定 这 些 量 以 及 类 似 的 量 的 值 。 
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图 5-5 具有 256 个 内 部 结 点 的 随机 二 又 树 
习题 5.8 证 明 具 有 N 个 结 点 的 二 又 树 的 高 必然 至 少 为 lgN。 
习题 5.9 [Kraft 等 式 ] 令 是 二 又 树 的 层 j 上 的 外 部 结 点 数 。 序 列 {ko, ki ks}( 其 中 h 是 树 的 
高 ) 描 述 了 该 树 的 全 魏 。 证 明 ， 整 数 的 向 量 描述 二 又 树 的 全 狐 当 且 仅 当 ZP El, 
习题 5.10 给 出 具有 N 个 结 点 的 一 般 树 的 路 径 长 的 严格 上 界 和 下 界 。 
习题 5.11 给 出 具有 N 个 内 部 结 点 的 二 又 树 的 内 部 路 径 长 和 外 部 路 径 长 的 严格 上 界 和 下 界 。 
习题 5.12 给 出 具有 N 个 结 点 的 二 又 树 的 树叶 数 的 严格 上 界 和 下 界 。 


树 与 算法 分 析 的 研究 相关 不 仅 因为 树 本 身 隐 式 地 模拟 了 递归 程序 的 行为 ， 而 且 还 因为 树 
直接 参与 了 广泛 使 用 的 许多 基本 算法 。 我 们 这 里 将 简要 描述 一 些 最 基本 的 这 类 算法 。 这 种 简 
要 描述 当然 不 能 妥善 处 理 算法 设计 中 树 结构 的 一 般 实 用 课题 ， 不 过 我 们 可 以 指出 ， 诸 如 路 径 
长 和 高 这 类 树 参 数 的 研究 能 够 提供 为 大 量 重要 算法 的 分 析 所 需要 的 基本 信息 。 

遍历 。 在 计算 机 表示 中 ， 对 树 进行 的 基本 操作 之 一 就 是 遍历 : 系统 地 处 理 树 的 每 一 个 结 
点 。 这 种 操作 从 组 合 学 上 看 还 是 有 趣 的 ， 因 为 它 代 表 一 种 在 (二 维 ) 树 结构 和 各 种 (一 维 ) 
线性 表示 之 间 建 立 一 种 对 应 的 方式 。 
fk 


图 5-6 具有 256 个 结 点 的 随机 森林 
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树 的 递归 性 质 导致 遍历 的 一 种 简单 的 递归 过 程 。 我 们 “访问 ” 树 的 根 并 递归 地 “ 访 间 ” 
子 树 。 根 据 是 否 我 们 在 之 前 、 之 后 或 (对 于 二 又 树 ) 在 两 梨子 树 之 闻 访 问 过 根 ， 可 以 得 到 三 
种 不 同类 型 的 遍历 之 一 : 

以 先 序 (preorder) 访问 树 的 所 有 结 点 

* 访问 根 
。 访 问 子 树 -( 仍 以 先 序 ) 
以 后 序 (postorder) 访问 树 的 所 有 结 点 : 
。 访 问 子 树 ( 仍 以 后 序 ) 
。 访 问 根 
以 中 序 (inorder) 访问 树 的 所 有 结 点 : 
。 访 问 左 子 树 ( 仍 以 中 序 ) 
。 访 问 根 
。 访问 右 子 树 〈 仍 以 中 序 ) 

程序 5.1 是 二 叉 树 先 序 遍历 的 一 种 实现 。 在 这 些 方法 中 ， 对 根 的 “访问 ”意味 着 应 该 系统 
地 应 用 到 整个 树 的 结 点 上 的 任意 过 程 。 不 同 的 过 程 可 能 适应 不 同类 型 的 结 点 ， 例 如 二 又 树 的 
外 部 结 点 。 

当 一 个 递归 过 程 调用 被 执行 的 时 候 , FARR (pushdown stack) 被 用 来 存储 当前 的 “环境 ， 
以 便 在 从 该 过 程 返回 时 会 恢复 环境 。 当 遍历 一 棵 树 时 由 下 推 栈 所 使 用 的 内 存 的 最 大 量 直 接 与 
树 的 高 成 比例 。 虽 然 在 这 种 情况 下 内 存 的 使 用 可 能 被 程序 设计 人 员 隐 项 ， 但 是 它 确 实 是 一 种 
重要 的 性 能 参数 ， 我 们 有 兴趣 分 析 树 的 高 。 

另 一 种 遍历 树 的 方法 叫做 层 序 (level order) 遍历 : 首先 列 出 0 层 上 所 有 的 结 点 ( 根 )， 然 
后 从 去 到 右 列 出 1 层 上 所 有 的 结 点 ， 然 后 从 左 到 右 列 出 第 2 层 上 所 有 的 结 点 ， 等 等 。 这 种 方法 
不 适合 作为 递归 程序 实现 ， 但 是 它 很 容易 非 递归 地 实现 ， 就 像 上 面 使 用 的 是 一 个 队列 【先进 
先 出 数据 结构 ) 而 不 是 栈 。 


程序 5.1 二 叉 树 的 先 序 遍历 


procedure traverse(x: link); 
begin ` 
if x <> NIL then 


visit (x^. key); 
traverse (x^.left); 
traverse (x*. right) 
end 

end; 





树 的 遍历 算法 是 基本 的 和 广泛 适用 的 算法 。 关 于 这 些 算法 的 更 多 的 细节 以 及 递归 实现 和 
韭 递归 实现 之 间 的 关系 ， 可 见 Knath{f21] 或 Sedgewick[29]。 

表达 式 求 值 。 考 虚 由 +、-、*、/ 等 操作 以 及 由 数 和 字母 表示 的 操作 数组 成 的 算术 表达 式 。 
这 样 的 表达 式 一 般 使 用 括号 来 指出 运算 之 间 的 优先 级 。 表 达 式 可 以 被 表示 成 二 叉 树 ， 叫 做 分 
析 树 (parse trees)。 例 如 ， 考 虚 只 使 用 二 目 运 算 符 的 表达 式 的 情况 。 这 样 的 表达 式 对 应 一 榜 
二 叉 树 ， 操 作 符 在 内 部 结 点 上 而 操作 数 在 外 部 结 点 上 ， 如 图 5-7 所 示 ， 它 描绘 了 表达 式 

(x4 y)*z)- (w+ (a-(v + y)) (z+ y) *x))) 

的 分 析 树 。 给 定 一 棵 分 析 树 ， 我 们 可 以 使 用 一 个 简单 的 递归 程序 计算 出 对 应 表达 式 的 值 : 
(递归 地 ) 计算 两 棵 子 树 的 值 ， 然 后 再 应 用 运算 符 对 所 算得 的 值 进行 计算 。 外 部 结 点 的 求 值 
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给 出 相关 变量 的 当前 值 。 这 个 程序 等 价 于 诸如 程序 5.1 这 样 的 树 遍 历 。 如 同 树 遍 历 ， 该 程序 
的 空间 需求 将 正比 于 树 的 高 。 





图 5-7 一 个 算术 表达 式 的 树 表示 
一 般 说 来 ， 在 解释 程序 中 表达 式 树 求 值 是 直接 如 上 面 描 述 完成 的 ， 但 是 在 由 编译 器 所 生 
成 的 代码 中 则 是 间接 完成 的 。 就 是 说 ， 编 译 器 可 以 先 建立 一 个 与 某 部 分 程序 相 联 系 的 表达 式 
树 ， 然 后 将 表达 式 树 转换 成 一 系列 指令 以 便 在 程序 执行 时 算出 表达 式 的 值 。 所 使 用 的 这 些 指 
令 与 机 器 指令 很 接近 ， 例 如 ， 涉 及 用 到 机 器 寄存 器 的 二 进 制 算 术 运 算 。 这 种 变换 对 应 “代码 
生成 ”并 通常 导致 寄存 器 分 配 问题 。 例 如 ， 下 列 代码 可 能 由 图 5-7 中 的 树 生成 


rl<x+y 


r2<r1l*z 
r3<vt+y 
r4<a-r3 
r5<z+y 
r6<-r5*x 
r7<r4/r6 
r8<witr7 
r9<r2-r8s 


这 种 类 型 的 代码 能 够 容易 地 转换 成 机 器 码 。 在 典型 情况 下 ， 临 时 变量 z1 到 =2 可 能 对 应 机 器 的 
寄存 器 ， 一 种 容纳 算术 运算 结果 的 (有限 的 ) 机 器 资源 ， 而 我 们 可 能 想 要 极 小 化 所 用 寄存 器 
的 数目 。 例如， 我 们 可 以 用 指令 
ry<—wirl 
r7<r2-r7 
代替 上 面 的 后 两 条 指令 而 少 使 用 两 个 寄存 器 。 表 达 式 的 其 他 部 分 也 可 以 进行 类 似 的 节省 。 计 
算 一 个 表达 式 的 值 所 需要 的 最 少 的 寄存 器 的 个 数 是 一 个 具有 直接 实际 意义 的 树 参数 。 这 个 量 
由 上 所 述 可 以 用 树 的 高 来 定 界 ， 但 它 是 相当 不 同 的 。( 例如， 其 所 有 结 点 除 一 个 结 点 外 都 恰好 
只 有 一 个 空 链 的 退化 二 又 树 的 高 为 N， 但 所 对 应 的 表达 式 却 可 以 用 一 个 寄存 器 来 计算 其 值 .) 
表达 式 求 值 本 身 就 具有 相当 的 重要 性 ， 而 它 在 将 计算 机 程序 从 高 级 语言 变换 成 机 器 语言 的 过 
程 中 也 体现 出 树 的 重要 作用 。 编 译 器 一 般 首 先 把 程序 “分 析 ” 成 树 的 表示 法 ， 然 后 再 处 理 树 
的 表示 。 
习题 5.13 为 计算 图 5-7 中 表达 式 的 值 所 需要 的 寄存 器 的 最 小 数目 是 多 少 ? 
习题 5.14 给 出 对 应 表达 式 ((a + b)*d) 和 ((a + b)*(d - e)*(f +8)) - hx*i 的 二 又 树 。 再 给 出 
对 这 两 棵 树 的 先 序 、 中 序 和 后 序 遍 历 。 
习题 5.15 其 操作 符 所 要 求 的 操作 数 个 数 变化 的 表达 式 对 应 一 棵 树 ， 其 中 操作 数 在 树叶 
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上 ， 而 操作 符 在 非 叶 结 点 上 。 给 出 对 应 表达 式 (a +b + ced- ef +g +h) ixj 的 树 的 先 
序 遍 历 和 后 序 遍历 ， 然 后 给 出 这 棵 树 的 二 叉 树 表示 ， 并 给 出 所 得 到 的 二 又 树 的 先 序 遍 历 、 中 
序 遍 历 和 后 序 访 历 。 

对 于 这 些 以 及 许多 其他 应 用 ， 我 们 关心 树 的 路 径 长 和 高 。 当 然 为 了 考虑 这 些 参数 的 平均 
值 ， 我 们 需要 指定 一 个 模型 ， 该 模型 将 定义 “随机 ” 树 的 具体 含义 。 对 于 树 遍 历 和 表达 式 处 
理 ， 习 惯 上 使 用 经 验 模型 ， 其 中 所 有 的 树 都 是 等 可 能 出 现 的 。 因 此 ， 对 于 这 些 应 用 ， 我 们 研 
帘 所 谓 的 Catalan 模 型 (Catalan models)， 其 中 大 小 为 N 的 Ts 棵 二 又 树 或 大 小 为 N + 1 的 一 般 的 
树 中 的 每 一 棵 都 以 等 概率 出 现 。 这 不 是 唯一 的 可 能 -一 在 许多 情况 下 ， 树 是 由 外 部 数据 引起 ， 
此 时 其 他 随机 模型 是 合适 的 。 下 面 我 们 考虑 一 个 特别 重要 的 例子 。 


5.5 二 叉 查 找 树 


二 叉 树 最 重要 的 应 用 之 一 是 二 又 树 搜索 算法 ， 一 种 使 用 二 又 树 对 在 许多 应 用 中 产生 的 基 
本 问题 提供 有 效 解 决 方案 的 方法 。 二 又 树 搜索 的 分 析 曾 述 了 所 有 的 树 都 等 可 能 地 出 现 的 模型 
和 其 基础 分 布 是 非 均 匀 的 模型 之 间 的 区 别 。 这 两 个 问题 并 列 为 本 章 基本 概念 之 一 。 

词典 、 符 号 表 或 搜索 问题 是 计算 机 科学 中 的 基本 问题 : 将 一 组 关键 字 (或 许 还 有 相关 的 
信息 ) 组 织 起 来 以 便 对 特定 的 某 些 关键 字 进 行 有 效 的 查找 。 在 2.6 节 中 讨论 的 折 半 查找 方法 
是 求解 这 种 问题 的 一 种 基本 的 方法 ， 但 是 它 需 要 预 处 理 ， 使 所 有 的 关键 字 首 先 被 排 成 有 序 的 
顺序 。 

二 叉 树 结构 可 以 用 来 对 词典 问题 提供 更 加 灵活 的 解决 方案 ， 树 的 构建 是 用 每 个 结 点 上 的 
关键 字 递 增 地 进行 的 ， 构 建 的 时 候 要 保持 每 个 结 点 的 关键 字 不 小 于 其 左 子 树 上 的 任何 关键 字 
同时 不 大 于 其 右 子 树 上 的 任何 关键 字 。 用 这 种 方法 可 以 给 N- 结 点 二 又 树 上 的 结 点 以 统一 的 方 
式 指定 任意 一 组 N 个 互 异 的 关键 字 。 例 如 ， 图 5-8 显 示 三 棵 不 同 的 二 又 查找 树 ， 它 们 包含 一 组 
整数 如 下 : 23 26 31 41 44 53 58 59 93 97, 





图 5-8 三 棵 二 又 查找 树 


定义 ”二 又 查找 树 就 是 一 棵 带 有 与 其 内 部 结 点 相 联 系 的 关键 字 的 二 又 树 ， 满 足 约束 : 
每 个 结 点 上 的 关键 字 大 于 或 等 于 它 的 左 子 树 上 的 所 有 关键 字 并 小 于 或 等 于 它 的 右 子 
树 上 的 所 有 关键 字 。 


如 果 我 们 假设 关键 字 已 经 被 置 于 二 叉 查找 树 上 ， 那 么 程序 5.2 给 出 词典 问题 的 一 个 解决 方 
案 ， 它 用 到 一 个 “搜索 ”过 程 的 简单 递归 实现 ， 该 过 程 确定 一 个 给 定 的 关键 字 是 否 在 这 棵 二 
叉 查 找 树 上 。 为 了 查找 一 个 带 有 关键 字 v 的 结 点 ， 如 果 读 树 是 空 树 则 终止 查找 (查找 不 成 
Sh) . 如 果 根 结 点 上 的 关键 字 是 v， 那 么 也 终止 查找 (查找 成 功 )。 否 则 ， 如 果 v 小 于 根 结 点 上 
的 关键 字 则 查看 左 子 树 ， 如 果 v 大 于 根 结 点 上 的 关键 字 则 查看 右 子 树 。 给 定 一 棵 二 又 查找 树 ， 
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程序 5.2 返 回 一 个 包含 关键 字 v 的 结 点 当 且 仅 当 该 树 存在 这 样 的 结 点 ; 否则 程序 返回 NIL。 验 证 
这 个 结论 很 简单 。 一 般 说 来 ， 与 一 组 特定 的 关键 字 相 联 系 的 二 又 查找 树 有 很 多 ; 对 于 任意 这 
样 的 二 叉 查 找 树 该 算法 都 能 够 正常 工作 。 

为 了 构造 一 棵 二 又 查找 树 ， 我 们 一 个 一 个 地 把 关键 字 添 加 到 初始 空 树 中 ， 使 用 的 是 递归 
的 策略 。 为 把 一 个 新 的 结 点 插入 到 一 棵 空 树 中 ， 创 建 该 结 点 ， 并 使 它 的 左 、 右 指针 为 NIL ， 
而 且 返 回 指向 该 结 点 的 指针 。( 我 们 使 用 值 NIL 表 示 所 有 外 部 结 点 。) 如 果树 不 空 ， 那 么 ， 若 
关键 字 小 于 根 结 点 的 关键 字 则 把 该 关键 字 插 入 到 左 子 树 中 ; 若 关 键 字 大 于 根 结 点 的 关键 字 则 
把 该 关键 字 揪 入 到 右 子 树 中 。 这 等 价 于 对 该 关键 字 进 行 一 次 不 成 功 查找 ， 然 后 将 一 个 包含 该 
关键 字 的 新 结 点 插入 到 搜索 终止 处 的 外 部 结 点 上 。 程 序 5.3 为 该 方法 的 实现 。 这 种 实现 假设 关 
键 字 不 在 树 上 ; 另 一 种 实现 是 混合 查找 和 插入 的 功能 。 

程序 5.2 ”二叉树 搜索 


function search(v: integer, x: link): link; 


begin 
if x = NIL search := NIL else 
if v = x*.key then search := x else 


if v < x*.key then search(x*.left) 
else search(x*.right) 
end; 


由 于 在 两 个 程序 中 每 次 调用 search 均 导致 最 多 一 次 递归 调用 ， 因 此 开发 等 价 的 非 递 归 实 现 
很 简单 ， 不 需要 使 用 栈 。 关 于 二 叉 查 找 树 实现 的 更 多 细节 可 以 在 Knuth[22] 或 Sedgewick[29] 或 
任何 一 本 算法 和 数据 结构 的 初级 教材 中 都 能 找到 。 

例如 ， 假 设 关 键 字 30 要 被 插入 到 图 5-8 左 边 的 树 中 ， 那 么 我 们 就 会 创建 一 个 新 的 结 点 作为 
26 的 右 子 结 点 。 该 树 的 形状 和 创建 以 及 用 它 进行 搜索 所 需要 的 步 数 依赖 于 关键 字 的 插入 顺序 。 
例如 ， 如 果 将 关键 字 按 下 述 顺 序 

31 26 23 41 59 53 44 58 97 93 
播 入 到 初始 空 树 中 ， 则 图 5$-8 左 边 的 树 就 是 所 得 的 结果 。 如 果 将 关键 字 以 顺序 

58 41 93 26 53 59 97 23 31 44 
插入 ， 那 么 所 得 到 的 树 就 是 右边 的 结果 。 在 根 处 的 关键 字 必 须 首先 出 现 ; 对 于 左 子 树 的 关键 
字 和 右 子 树 的 关键 字 相 混 但 以 相同 的 相对 顺序 出 现 的 任何 排序 都 将 给 出 相同 的 树 。 如 果 关 键 
字 以 

23 26 31 41 44 53 58 59 93 97 


的 顺序 插入 ， 那 么 结果 将 是 一 棵 无 叶 的 退化 树 。 图 $-8 中 间 的 树 是 退化 树 的 另 一 个 例子 。 
程序 5.3 ”二叉树 插入 


function insert(v: integer, x: link): link 
begin 
if x = NIL then 
begin 
new(x); x*.left := NIL; x*.r := NIL; X .key := v; 
end; 
else 
begin 
if v < x*.key 
then x^.left := insert(v, x”.left) 
else x*.right := insert(v, x*.right) 
end; 
return x; 


end; 


N 
~ 
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忽略 相等 的 关键 字 ， 我 们 可 以 考虑 从 其 结 点 上 的 关键 字 的 一 个 排列 构造 一 棵 树 。 一 般 地 ， 
许多 不 同 的 排列 可 以 映射 到 同一 棵 树 。 图 5-9 显 示 在 4 个 元 素 的 排列 和 4 个 结 点 的 树 之 间 的 映射 。 
因此 ， 例 如 如 果 关 键 字 以 随机 顺序 插入 到 初始 空 树 中 ， 那 么 每 棵 树 是 等 可 能 出 现 的 说 法 是 不 
成 立 的 。 实 际 上 幸运 的 是 ， 对 其 进行 搜索 和 构造 开销 低 的 更 “平衡 ”的 树 结构 比 开 销 高 的 树 
结构 更 可 能 出 现 。 在 分 析 中 我 们 将 把 它们 量化 。 


(2) 四 (1) oO A) (1) (1 
中 A O® 7 W a OS BO aR aG) 
(2) 6 5(3) (3) t 5(4) 


2143 2134 
2413 2314 1432 1423 1243 1234 
2431 2341 


4213 3214 3124 
4321 4312 4132 4123 3241 3142 
4231 3421 3412 


图 5-9 具有 4 个 结 点 的 二 又 查找 树 

有 些 树 构造 起 来 比 其 他 的 树 要 花费 昂贵 。 在 最 坏 的 情况 下 ， 一 棵 退化 的 树 ， 对 于 1 到 N 之 
间 的 每 一 个 i， 插 入 第 i 个 结 点 要 考查 i - 1 个 内 部 结 点 ， 因 此 构造 一 棵 树 总 共 需 要 考查 N(N - 
1)/2 个 结 点 。 在 最 好 的 情况 下 ， 对 于 每 一 棵 子 树 ， 中 间 的 结 点 将 在 根 处 ， 在 每 棵 子 树 中 将 有 大 
约 M2 个 结 点 ， 因 此 标准 的 分 治 递归 Tv = 2Tw + N 成 立 ， 这 意味 着 ， 构 建 这 样 的 树 总 共 需 要 大 
约 NlgN 步 ( 见 2.6 节 )。 | 

构造 一 棵 特定 的 树 的 开销 直接 与 它 的 内 部 路 径 长 成 比例 ， 因 为 结 点 一 旦 被 插入 就 不 再 移 
动 ， 而 结 点 的 层 恰好 就 是 将 它 插 入 所 需要 的 结 点 的 个 数 。 因 此 ， 构建 一 棵 树 的 开销 与 能 够 导 
出 其 构建 的 每 个 插入 序列 是 相同 的 。 对 于 所 有 NI! 个 排列 ， 我 们 可 以 通过 将 结果 树 的 内 部 路 径 
长 (累加 的 开销 ) 相 加 然后 除 以 N! 而 得 到 树 的 构建 的 平均 开销 。 这 个 累加 的 开销 也 可 以 通过 
对 所 有 的 树 将 内 部 路 径 长 和 导出 树 的 构建 的 排列 的 个 数 的 乘积 相 加 来 计算 。 这 是 到 一 棵 初始 
空 树 的 N 次 随机 插入 之 后 我 们 期 望 的 平均 内 部 路 径 长 ， 但 是 它 不 同 于 在 所 有 树 都 是 等 可 能 的 
Catalan 模 型 下 一 棵 随机 二 又 树 的 平均 内 部 路 径 长 。 这 需要 分 别 地 分 析 ， 我 们 将 在 下 一 节 邯 虑 
Catalan 树 的 情形 并 在 5.7 节 考 虚 二 又 查找 树 的 情形 。 

许多 其 他 有 用 的 操作 在 二 又 树 上 很 容易 定义 。 例 如 ， 中 序 遍 历 能 够 得 到 排序 顺序 的 关键 
字 ， 这 是 在 许多 应 用 中 附带 的 有 用 的 收益 。 对 于 更 详细 的 处 理 或 实际 问题 的 进一步 讨论 ， 可 
见 Knuth[22] 或 Sedgewick[29]。 

习题 5.16 给 出 构建 图 5-8 中 每 棵 树 的 所 有 关键 字 插 入 序列 。 

习题 5.17 ” 证明， 两 个 不 同 的 关键 字 插 入 序列 给 不 出 相同 的 退化 的 树 结构 。 如 果 所 有 N! 
个 关键 字 插 入 序列 是 等 可 能 出 现 的 ， 那 么 产生 退化 树 结 构 的 概率 是 多 少 ? 

习题 5.18 ”对 于 N = 2" - 1， 如 果 所 有 N! 个 关键 字 插 入 序列 是 等 可 能 的 ， 那 么 建立 完美 平 
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Bim OR ARE REBEL) 的 概率 是 多 少 ? 

习题 5.19 如果 将 5 个 互 异 关键 字 以 随机 顺序 插入 到 初始 空 树 中 ， 那 么 哪些 5- 结 点 二 又 查 
找 树 形状 是 最 可 能 出 现 的 ? 

习题 5.20 证 明 二 又 查找 树 的 先 序 遍 历 可 以 是 建立 该 树 的 输入 关键 字 序 列 。 就 是 说 ， 以 先 
序 遍 历 一 棵 二 又 查找 树 并 将 那些 关键 字 插 入 到 初始 空 树 中 则 得 到 原 树 。 对 于 后 序 与 /或 层 序 是 
否 上 述 结论 也 成 立 ? 证 明 你 的 答案 。 


5.6 Catalan 树 中 的 平均 路 径 长 


为 了 开始 对 树 参数 的 分 析 ， 我 们 考虑 每 棵 树 都 是 等 可 能 出 现 的 这 种 模型 。 为 了 避免 与 其 
他 模型 相 混 ， 我 们 添加 修饰 词 Catalan 表 示 在 该 假设 下 的 随机 树 ， 因 为 一 棵 特定 的 树 出 现 的 概 
率 是 Catalan 数 的 个 数 。 在 5.4 节 提 到 ， 这 种 模型 对 于 诸如 表达 式 求 值 这 样 的 应 用 是 合理 的 ， 并 
且 第 3 章 开发 的 组 合 学 工具 可 以 直接 应 用 到 分 析 中 。 

二 叉 Catalan 树 。 如 果 考虑 每 棵 N- 结 点 树 痢 是 等 可 能 的 ， 那么 具有 N 个 内 部 结 点 的 二 又 树 
的 平均 内部) 路 径 长 是 多 少 ?我 们 对 这 个 重要 问题 的 分 析 是 在 第 3 章 引入 的 组 合 结构 参数 分 
析 一 般 处 理 的 原型 : 

.定义 一 个 二 变量 生成 函数 (BFG)， 一 个 变量 表示 树 的 大 小 ， 另 一 个 变量 则 表示 内 部 路 径 长 。 

+ 得 出 一 个 由 BFG 满 足 的 函数 方程 ， 或 它 相关 的 累积 生成 函数 (CGF). 

+ 抽取 系数 得 到 结果 。 

虽然 我 们 从 第 3 章 知道 直接 基于 生成 函数 的 论断 对 于 这 样 的 问题 通常 是 可 用 的 ， 但 是 我 们 
还 是 从 第 2 步 基于 递归 的 论证 开始 。 我 们 指出 详细 的 论断 〈 这 里 ) 和 简单 的 论断 〈 在 下 一 小 段 ) 
以 进一步 强调 这 个 论点 。 

首先 ， 观察 在 具有 N 个 结 点 的 随机 二 又 Catalan 树 中 左 子 树 有 k 个 结 点 (而 右 于 树 有 N - 
k 一 1 个 结 点 ) 的 概率 为 TTy-，_ Ty (其 中 Ty = (7) w+D EEND Catalan). 分母 是 可 能 


的 N- 结 点 树 的 棵 数 而 分 子 是 使 用 左边 有 Kk 个 结 点 且 右 边 有 N - k- 1 个 结 点 的 任意 树 做 成 一 棵 NN- 
结 点 树 的 方法 数 ， 我 们 把 这 个 概率 分 布 叫做 Catalan 分 布 。 
图 5-10 指 出 随 着 N 增 长 时 的 Catalan 分 布 。 关于 分 布 的 一 个 惊人 的 事实 之 一 是 ， 随 着 和 N 的 增 


04 TT 
0.357 Th 








0 (N =1)/2 N-1 


图 5-10 Catalan 分 布 ( 随 机 二 又 树 中 子 树 的 大 小 ) 
(k- 轴 按 和 N 的 比例 标 度 ) 
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长 ， 一 棵 子 树 是 空 树 的 概率 趋向 于 一 个 常数 : 它 是 2Tw Ty ~ 12。 实 际 上 ， 在 一 棵 随机 二 叉 
树 中 大 约 有 一 半 的 结 点 可 能 会 有 一 棵 空子 树 ， 因 此 这 样 的 树 不 是 平衡 得 特别 好 的 树 。 
利用 Catalan 分 布 ， 使 用 一 个 非常 像 我 们 在 Quicksort 时 研究 过 的 那样 的 递归 ， 我 们 可 以 分 
析 路 径 长 : 在 随机 二 又 Catalan 树 中 平均 内 部 路 径 长 由 下 面 的 递归 描述 
T_T 
Qv=N-1 一 LO + Oya) (N>0 
+2, Ty i +e i ) 


其 中 Q。= 0。 在 这 个 递归 下 的 论断 是 一 般 性 的 ， 通 过 用 其 他 的 分 布 来 代替 Catalan 分 布 ， 它 也 
可 以 在 其 他 随机 性 模型 下 用 来 分 析 随 机 二 叉 树 的 结构 。 例 如 下 面 的 讨论 ， 二 又 查找 树 的 分 析 
导致 均匀 分 布 〈 每 棵 子 树 大 小 均 以 概率 IN 发 生 ) 而 递归 酷似 第 1 章 中 的 Quicksort 递 归 。 


定理 5.3 (二 又 树 中 的 路 径 长 ) ”一 棵 具有 N 个 内 部 结 点 的 随机 二 又 树 中 平均 内 部 路 径 
长 为 
(N+14" 
a 3N- 1= NVAN - 3N+O(VN N) 
(o) 
证 明 我 们 像 在 3.12 节 那样 导出 一 个 BGF: 首先 ， 概 率 生 成 函数 OMu) = Erro quu EE 
OW S oo  (N>0) 


lekeN N 


其 中 ，4qm 为 是 总 的 内 部 路 径 长 的 概率 ，Qo(w) = 1。 为 了 简化 该 递归 ， 我 们 转 到 计数 处 理 上 ， 
不 用 概率 而 使 用 pw = Tram (具有 内 部 路 径 长 上 且 大 小 为 N 的 树 的 棵 数 )。 从 上 面 的 递归 可 知 ， 


下 式 成 立 
Nk ‘=u pr NE (N>0) 
Bo Re MP N> 
为 了 用 二 元 生成 函数 
P(u,z)= kN 


表示 ， 我 们 用 z 乘 以 前 面 的 式 子 并 对 N 求 和 得 到 


Pua- S » > Po- pri D po- peu’ Zu +1 
11 < 


N rp dO 


-z 之 之 Prt (zu) >» Foro (zz0 > *y 

0 r> 0 >k sz0 

= > 5 Prt! u” X Spe 
0 r>0 0570 


= zP(u,zuy +1 


下 面 我 们 还 将 看 到 这 个 方程 的 一 个 简单 直接 的 推导 。 现 在 ， 可 以 使 用 定理 3.11 得 出 想 要 的 结果 : 
置 x = 1， 得 到 Catalan 数 的 生成 函数 的 熟知 的 函数 方程 ， 因 此 P(1,z) = TG)= (1 一 Vi-4z)/2z)。 
如 果 我 们 把 所 有 二 又 树 的 内 部 路 径 长 相 加 ， 那 么 偏 导数 P,(1, z) 就 是 累计 总 和 的 生成 函数 。 由 
定理 3.11， 我 们 寻求 的 平均 值 为 [z*]P,(1, VIPA, 2)- 

对 BGF 函 数 方程 的 两 边关 于 uw 微分 (使 用 偏 导 数 的 链 式 法 则 ) 得 到 





P,(u, z) = 22P(u, zu)(P, (u, zu) + zP, (u, zu)) 
计算 该 式 在 4 = 1 的 值 则 给 出 CGF 的 函数 方程 : 
P (1,2) = 227 (z)(P, (1, z) + 2T"(z)) 
它 产生 解 


2z*T(z)T'(z) 
1-2zT(z) 


现在 T(z) = (1 - Vi-4z)/(2z)， 因 此 ，1 - 227) = V1-4z 以 及 zT'(z) = 一 T(z) + 1/ Vi-4z。 代 
入 这 些 式 子 则 得 到 显 式 表达 式 . 


P.(1,z) = 





z 
2P,(1,z) = ick 


将 其 展开 则 得 到 所 述 结果 。 = 
这 个 结果 通过 图 5-5 中 的 巨大 的 随机 二 又 树 得 以 解释 : 大 树 渐 近 地 大 致 符合 VNR NN 
平方 。 
BGF 的 直接 组 合 学 推导 。 定 理 5.3 的 证 明 涉 及 二 元 生成 函数 


P(u, z) = > > Pruylt’2™ 
>0k> 0 


其 中 pw 为 具有 AN 个 结 点 及 内 部 路 径 长 为 [的 树 的 棵 数 。 从 第 3 章 得 知 ， 这 可 以 等 价 地 表示 成 


P(u, 2) = Da 
此 时 ，5.3 节 的 递归 定义 直接 导出 


Plu, z) = > 2 )+n(t, elelee! hey +1 
47 i, 


结 点 的 个 数 是 1 加 上 子 树 的 结 点 个 数 ， 而 内 部 路 径 长 则 是 子 树 中 每 个 结 点 的 内 部 路 径 长 加 1 的 
和 。 现 在 ， 很 容易 将 双重 求 和 重新 安排 成 两 个 独立 的 和 : 


P(u, z) = Dh Pau ye" byte) 二 
= zP(u, zu) +1 


读者 可 能 希望 仔细 研究 这 个 例子 ， 体 味 其 中 的 简明 和 精妙 之 处 。 通 过 符号 方法 也 能 够 直接 得 
出 这 种 形式 的 这 些 方程 ( 见 [13])。 
累积 生成 函数 。 得 到 同样 结果 的 另 一 一 条 途径 是 直接 导出 CGF 的 函数 方程 ， 我 们 定义 CGF 


Cro P, SO 


其 平均 路 径 长 为 [z]Cxz)/[z"T(z)。 以 如 上 完全 相同 的 方式 ， 二 又 树 的 递归 定义 直接 导致 
C,(z) = > Ze +a Jele 4 le, Delite! 
= 2zC;(z)T(z) + 2277 (z)T'(z) 
方程 和 在 定理 5.3 得 到 的 函数 方程 相同 。 


N 
n 
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习题 5.21 直接 从 路 径 长 的 递归 式 中 导出 该 结果 。 

刚刚 考虑 的 三 种 推导 是 基于 二 又 树 的 相同 的 组 合 分 解 ， 但 是 CGF 隐 藏 了 大 部 分 的 细节 ， 
而 且 它 的 确 是 求 平均 首选 的 方法 。 在 定理 5.3 的 证 明 中 给 出 的 复杂 递归 和 这 里 给 出 的 相同 结果 
的 “两 行 ”推导 之 间 的 反差 是 典型 的 ， 我 们 将 在 本 书 中 看 到 许多 其 他 的 问题 ， 它 们 使 用 CGF 
显著 地 压缩 了 推导 的 细节 。 

一 般 Catalan 树 。 继 续 以 相同 的 方式 ， 使 用 BGF 能 够 找到 一 般 随 机 树 中 期 望 的 路 径 长 。 


定理 5.4 (一 般 树 中 的 路 径 长 ) 具有 入 个 内 部 结 点 的 一 般 随机 树 中 平均 内 部 路 径 长 为 
\ 


N-1 
4 -1 


N 


2 


- Z (4a -1)+ (VF) 








证 明 如 上 进行 
Olu, z) = > n(t)z" 


= 之 > wee wn J Hake Hit lle tage 
20 hG 


=z O14, zu) 
d, 
2—2- 
1- Ou, zu) 


置 x = 1， 我 们 看 到 C(1, D = GS = zT(z) = (1 ~ V1-4z )/2 是 Catalan 生 成 函数 ， 我 们 在 5.2 节 发 
现 该 函数 对 一 般 树 的 计数 。 将 上 面 得 到 的 BGF 对 微分 并 求 得 & = 1 的 值 ， 由 此 给 出 CGF 
zCo( DJ+zG'(z) 


= 1, = 
Cg (2) Q,( z) a _ G 


经 过 简化 得 到 
ca-1_ 1 2 
Oe 21 和 2 


像 上 面 一 样 ， 我 们 使 用 定理 3.11 并 计算 [z*]Co(zY[z*]G(z)， 由 此 直接 得 出 所 述 的 结果 。 = 

对 于 那些 尚未 完全 确信 BGF 和 CGF 功 效 的 读者 ， 我 们 还 是 期 望 他 们 能 够 完成 从 递归 导出 
上 面 结果 的 习题 。 

习题 5.22 ”直接 证 明 对 于 一 般 树 的 路 径 长 ， 定 理 5.4 的 证 明 中 对 CGF 给 出 的 方程 是 正确 的 
(正如 我 们 对 二 叉 树 所 做 的 ) 。 

习题 5.23 利用 一 般 树 和 二 叉 树 之 间 的 旋转 对 应 ， 从 随机 二 叉 树 的 相应 结果 中 推导 出 随机 
一 般 树 的 平均 路 径 长 。 


5.7 二 叉 查找 树 中 的 路 径 长 


在 二 又 查找 树 中 对 路 径 长 的 分 析 实 际 上 不 是 对 树 而 是 对 排列 的 一 个 性 质 的 研究 ， 因 为 我 
们 是 从 随机 排列 开始 的 。 在 第 6 章 ， 我 们 将 比较 详细 地 讨论 排列 作为 组 合 对 象 的 性 质 。 我 们 在 





这 里 考虑 BST 中 路 径 长 的 分 析 不 仅 因 为 将 其 与 用 刚刚 给 出 的 随机 树 的 分 析 进 行 比较 很 有 意义 ， 
而 且 还 因为 我 们 在 第 1 章 和 第 3 章 已 经 做 完了 所 有 的 工作 。 

图 5-9 指 出 一 一 并 且 分 析 证 明 一 一 二 又 查 找 树 插入 算法 将 更 多 的 排列 映射 到 具有 小 的 内 部 
路 径 长 的 平衡 树 要 多 于 具有 大 的 内 部 路 径 长 的 平衡 树 。 因 为 二 又 查找 树 以 统一 和 灵活 的 方式 
提供 混合 查找 、 插 入 和 其 他 操作 ， 所 以 这 种 树 被 广泛 地 使 用 。 由 于 查找 本 身 的 效率 ， 因 此 二 
又 查找 树 具 有 重要 使 用 价值 。 在 任何 查找 算法 的 开销 的 分 析 中 ， 存 在 两 个 重要 的 量 : 构造 开 
4K (construction cost) 和 查找 开销 (search cost)， 对 于 后 者 ， 通 常 将 两 种 情形 分 开 考 虑 比较 
合适 : 成 功 查找 和 不 成 功 查 找 。 在 二 又 查找 树 的 情形 ， 这 些 开销 函数 和 路 径 长 是 紧密 相关 的 。 

构造 开销 。 假 设 二 又 查找 树 是 通过 逐步 插入 ， 从 关键 字 的 资源 中 随机 提取 【〈 例 如 ， 在 0 和 
1 之 间 独 立 和 均匀 地 分 布 的 随机 数 ) 而 建成 的 。 这 意味 着 所 有 N! 种 关键 字 排 序 都 是 等 可 能 的 ， 
因此 与 假设 关键 字 是 整数 1 到 N 的 一 个 随机 排列 等 价 。 现 在 观察 到 ， 这 些 树 是 通过 一 个 分 裂 过 
程 形成 的 : 第 一 个 被 插入 的 关键 字 成 为 根 处 的 结 点 ， 然 后 ， 左 右 子 树 独 立地 建立 。N 个 关键 字 
中 第 k 个 最 小 的 关键 字 在 根 处 的 概率 为 WN 与 无关)， 在 这 种 情况 下 ， 大 小 为 k -~ 1 和 N - /的 
两 标 子 树 分 别 建 在 左边 和 右边 。 建 立 这 些 子 树 总 的 开销 对 每 个 结 点 (共计 k - 14+N-kEN- 
1) 而 言 比 子 树 在 根 处 大 1， 因 此 我 们 得 到 递归 

Cv=N-1+ 广 (Cra + Cy) (N>0, C, =0) 

当然 ， 在 5.5 节 提 到 ， 这 个 递归 还 描述 了 二 又 查找 树 的 平均 内 部 路 径 长 。 此 外 ， 这 个 递归 是 在 
第 1 章 中 由 Quicksort 算 法 使 用 的 比较 次 数 所 解 得 的 递归 ， 不 过 这 里 用 的 是 N - 1 而 不 是 N+ 1。 

这 样 ， 我 们 实际 上 已 经 在 1.5 节 和 3.12 节 做 了 构造 二 又 查找 树 的 开销 的 分 析 。 

定理 5.5 (BST 的 构造 开销 ) 在 通过 以 随机 顺序 将 N 个 不 同 的 关键 字 插 入 到 初始 空 树 中 

的 方法 构造 一 棵 二 又 查找 树 的 过 程 所 涉及 的 平均 比较 次 数 【一 棵 随机 二 又 查找 树 的 

平均 内 部 路 径 长 ) 为 

2(N+DC-D-2N=1386NIgN-2.846N 
其 方差 渐 近 接近 于 (7 - 2n7/3)N’. 


证 明 ”从 上 面 的 讨论 可 知 ， 关 于 平均 的 解 直 接 从 定理 1.2 的 证 明和 讨论 中 推出 。 方 差 的 推 
导 和 定理 3.12 的 证 明 相同 。 定 义 BGF 
uF?) zn 


D> ipl! 


其 中 7 苇 示 所 有 排列 的 集合 ，5P) 表 示 当 p 的 那些 元 素 用 标准 算法 被 插入 到 初始 空 树 中 所 构造 
的 二 又 查 找 树 的 内 部 路 径 长 。 通 过 实际 上 与 3.12 节 相同 的 计算 ， 这 棵 BGF 必 然 满足 函数 方程 





Zou = Q? (u, zu) (Qu, 0) =1) 


它 与 对 应 的 Quicksort 的 方程 的 区 别 仅 在 于 它 缺 少 一 个 好 因子 (起 源 于 在 递归 中 N+ 1 和 N - ! 的 差 
别 )。 方 差 的 计算 正如 3.12 节 中 所 和 全 的 ， 得 到 的 结果 完全 相同 〈 忆 因子 不 对 方差 构成 影响 )。 m 

这 样 ， 一 棵 “随机 ”二 又 查找 树 只 比 完美 平衡 树 多 耗费 40% 的 开销 。 图 5-11 显 示 一 棵 大 的 
随机 二 又 查找 树 ， 通 过 与 图 5-5 比 较 ， 该 树 平 衡 得 相当 好 ， 它 是 在 所 有 的 树 都 是 等 可 能 的 假设 
下 的 一 棵 “随机 ” 树 。 
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图 5-11 从 256 个 随机 排序 的 关键 字 构 建 的 二 又 查找 树 

与 Quicksort 递 归 的 关系 突出 了 在 算法 分 析 中 研究 树 的 重要 性 的 一 个 基本 的 原因 : 递归 程 
序 涉及 树 的 固有 结构 。 例 如 ， 图 5-8 左 边 的 树 也 可 以 看 作 是 使 用 程序 1.2 对 关键 字 排 序 的 过 程 的 
精确 描述 : 我 们 把 在 根 处 的 关键 字 看 成 是 分 隔 元 ; 左 子 树 看 作 是 对 左 子 文件 排序 的 表述 ; 而 
右 子 树 为 右 子 文件 排序 的 表述 。 二 又 树 也 可 以 用 来 描述 Mergesort 的 操作 ， 其 他 类 型 的 树 隐 含 
在 其 他 递归 程序 的 操作 中 。 

习题 5.24 对 于 图 5-8 中 的 每 一 棵 树 ， 给 出 那些 引起 程序 1.2 如 树 所 描述 的 划分 的 排列 。 

查找 开销 。 一 次 成 功 的 查找 就 是 找到 以 前 插入 的 关键 字 的 查找 。 我 们 假设 ， 树 中 的 每 个 
关键 字 都 是 等 可 能 被 查找 的 。 一 次 不 成 功 查找 是 对 前 面 尚未 被 插入 的 关键 字 的 查找 。 就 是 说 ， 
所 寻找 的 关键 字 不 在 树 上， 因此 查找 终止 于 外 部 结 点 。 我 们 假设 ， 每 一 个 外 部 结 点 都 是 等 可 
能 地 达到 的 ， 例 如 ， 在 我 们 的 模型 中 每 次 查找 的 情况 就 是 这 样 ， 其 中 新 的 结 点 从 随机 资源 中 
抽出 。 

我 们 想 要 分 析 在 树 中 ( 除 构造 之 外 ) 查找 的 开销 。 这 在 应 用 中 很 重要 ， 因 为 通常 我 们 认 
为 在 大 量 的 查找 操作 中 将 会 涉及 树 ， 而 对 于 许多 的 应 用 来 说 ， 构 造 的 开销 相 比 于 查找 开销 就 
不 那么 重要 了 。 为 了 进行 分 析 ， 我 们 采纳 概率 模型 ， 即 树 是 由 随机 插入 建成 的 ， 而 在 树 中 的 
查找 是 “随机 ”的 ， 正 如 前 面 一 段 所 描述 的 。 这 两 种 开销 都 直接 与 路 径 长 相关 。 


定理 5.6 (在 BST 中 的 查找 开销 ) 在 一 哥 N 个 结 点 的 随机 二 又 查找 树 中 ， 成 功 查找 的 平 
均 开 销 为 2Hy - 3 一 ZAIN, 而 不 成 功 查找 的 平均 开销 为 2Bvw:i1- 2。 在 这 两 种 情况 下 ， 
方差 均 为 2Hy + 0(1)。 


证 明 ”在 树 中 找到 一 个 关键 字 所 需要 的 比较 次 数 恰好 是 插入 该 关键 字 所 需要 的 次 数 加 1， 
因为 关键 字 在 树 中 从 来 不 移动 。 因 此 ， 成 功 查 找 的 结果 通过 用 N 去 除 构建 该 树 的 开销 〈 内 部 路 
径 长 ， 在 定理 5.5 中 给 出 ) 并 加 1 而 得 到 。 

由 于 外 部 结 点 的 层 恰好 就 是 在 一 次 不 成 功 查找 期 间 达 到 它 的 开销 ， 因 此 一 次 不 成 功 查 找 
的 平均 开销 恰好 是 用 N + 1 除外 部 路 径 长 ， 因 此 所 述 结果 直接 从 5.3 节 的 第 一 个 引 理 和 定理 5.5 
得 出 。 

方差 需要 不 同类 型 的 计算 ， 我 们 将 在 下 面 讨论 。 a 

利用 PGF 的 分 析 。 定 理 5.6 的 证 明 是 前 面 得 到 的 给 出 平均 开销 结果 的 方便 的 应 用 ; 不 过 ， 
它 并 没有 给 出 一 种 计算 标准 差 的 方法 。 

这 是 因为 概率 模型 间 的 差别 。 对 于 内 部 路 径 长 (构造 开销 ), 存在 N! 种 不 同 的 可 能 要 考虑 ， 
而 对 于 成 功 查找 的 开销 ， 却 存在 N . N! 种 可 能 。 内 部 路 径 长 是 一 个 量 ， 这 个 量 大 致 在 NlgN 和 
NN? 之 间 变化 ， 而 成 功 查 找 开销 在 1 和 之 间 变化 。 对 于 一 棵 特定 的 树 ， 我 们 通过 用 和 N 除 内 部 路 
径 长 得 到 平均 成 功 查 找 开 销 ， 但 是 刻画 出 查找 开销 的 分 布 的 特征 却 是 另外 一 回 事 。 例 如 ， 成 
功 查找 开销 为 1 的 概率 是 IN， 它 根本 与 内 部 路 径 长 为 N 的 概率 没有 关系 ， 当 六 > 1 时 这 个 概率 
是 0。 


习题 5.25 成 功 查找 开销 为 2 的 概率 是 多 少 ? 
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习题 5.26 ”通过 插入 1000 个 随机 关键 字 到 一 棵 初始 空 树 来 构造 1000 结 点 的 随机 二 叉 查 找 
树 ， 然 后 在 这 棵 树 中 进行 10 000 次 随机 查找 并 画 出 查找 开销 得 到 的 柱状 图 ， 与 图 1-4 进 行 比较 。 
习题 5.27 做 前 面 的 习题 ， 但 每 次 试验 生成 一 棵 新 的 树 。 
概率 生成 函数 (PGF， 见 3.11 节 ) 提供 另 一 种 推导 查找 开销 的 方法 ， 并 且 还 能 够 对 概率 中 
的 矩 进行 计算 。 例 如 ， 一 次 不 成 功 查找 的 开销 的 PGF 满 足 
N-1 2u 
+ 
N+1 Nbi 


因为 如 果 查 找 终止 在 两 个 外 部 结 点 中 的 一 个 上 ， 它 以 概率 2/(N + 1 发生， 那么 第 N 次 揪 入 使 一 
次 不 成 功 查 找 的 开销 增 1; 否则 增 0。 在 1 处 微分 并 求 值 便 得 到 求 平均 的 一 个 简单 递归 ， 释 缩 求 
和 直接 得 到 定理 5.6 的 结果 ， 而 方差 以 类 似 的 方式 得 到 。 这 些 计算 可 以 总 结 为 下 面 的 习题 。 

习题 5.28 [Lynch, cf. Knuth] 通过 计算 p"W1) + p'w1) ~ p'(1)， 证 明 不 成 功 查 找 开 销 的 方 
差 为 2H% ,1 一 4H +2。 

习题 5.29 [Knott, cf. Knuth] 利 用 PGF 进 行 直接 论证 ， 求 一 次 成 功 查 找 的 开销 的 平均 值 和 
方差 。 

习题 5.30 ”用 不 成 功 查 找 的 PGF 表 示 成 功 查 找 的 PGF。 利 用 这 个 结果 ， 通 过 不 成 功 查找 的 
平均 和 方差 表示 成 功 查 找 的 平均 和 方差 。 


5.8 随机 树 的 可 加 参数 
我 们 上 面 用 来 分 析 Catalan 树 和 二 又 查找 树 路 径 长 的 基于 CGE 的 方法 可 以 推广 到 包括 一 大 类 参 


数 ， 它 们 可 以 对 子 树 可 加 地 定义 。 特 别 地 ， 定 义 可 加 参数 为 任意 一 个 其 开销 函数 满足 线性 递归 
c() = e(t)+ > c(s) 


的 参数 ， 其 中 的 求 和 是 对 ! 的 根 的 所 有 子 树 进行 。 这 里 的 函数 e 叫 做 “费用 ”， 它 是 与 根 相关 的 
开销 的 一 部 分 。 下 表 给 出 开销 函数 和 相关 费用 的 几 个 例子 : 





py(u) = ( ay) Pile) 


He JA cA Rel) 开销 函数 c(7) 
1 Khel 

Wi- 1 内 部 路 径 长 
Ôn 树叶 数 


通常 我 们 将 空 二 叉 树 的 费用 函数 取 为 0。 
对 于 Catalan 树 模型 和 BST 模 型 的 任意 可 加 参数 的 平均 情形 分 析 能 够 得 出 一 种 全 面 的 一 般 
处 理 。 事 实 上 ， 它 包含 了 关于 树 的 性 质 的 所 有 定理 。 


定理 5.7 (随机 树 中 的 可 加 参数 ) ” 令 Cr(z)、Cce(z) 或 Ca(z) 分 别 是 二 又 Catalan 树 、 一 
Catalan 树 和 二 又 查找 树 等 模型 的 可 加 树 和 参数 c(1) 的 CGF， 并 令 Erxz)、Eo(z) 和 Ep(z) 为 
相关 费用 池 数 e() 的 CGF。( 对 于 二 又 查找 树 的 情形 ， 是 用 指数 的 CGF)。 这 些 涵 数 通 
过 下 述 方程 相关 


Cole) = FED. (= RCatalan 





Co(2) = T of + -天 二] (一 般 Catalan 树 ) 





= GO- g yle fa- (二 又 碍 找 树 ) 


证 明 证 明 直 接 从 我 们 对 路 径 长 给 出 的 论证 得 出 。 
首先 ， 令 为 所 有 二 又 Catalan 树 的 集合 。 此 时 ， 正 如 5.6 节 所 述 ， 我 们 有 
Ci(Z)u > c(t)z" 


-> e(t)z" + >, Jews, +e(t, other 


= E,(z) + 22T(z)C,(z) 
ftrb T(z) =(1-V1-4z)/(2z) 为 Catalan 数 Tw 的 OGF。 这 直接 导出 所 述 的 结果 。 
其 次 ， 对 于 一 般 Catalan 树 ， 令 G 为 树 的 集合 。 也 如 5.6 节 所 述 ， 我 们 有 
Cc(z)= > c(t)" 


= Dew" D B+ + C(t zee 


= E,(z)+ D> kCo(z)G"(z) 
>»0 


zCo(z) 
(1- G(z))’ 


其 中 G(z) =zT(z)= (1-VI-4z)/2，Catalan 数 T, _ ,的 常规 生成 函数 OGF， 是 对 一 般 树 的 计数 。 
将 其 代入 并 化 简 ， 同 样 导出 所 述 结果 。 

对 于 二 又 查找 树 ， 我 们 令 cw 和 ev 分 别 表示 大 小 为 N 的 随机 BST 的 c(D 和 e(D 的 期 望 值 。 此 时 ， 
指数 CGF C(z) 和 E(z) 与 这 些 序列 的 OGF 相 同 ， 我 们 按照 3.3 节 的 推导 得 出 递归 


= Ec(z)+ 





2 
Cy weeny , oe (N > 1, co =e) 
它 导出 微分 方程 
Ca) = Epe) +2 E (Cs(0) = E(0)) 
[252] 我们 完全 像 在 3.3 节 那样 求解 该 方程 ， 得 到 定理 所 述 的 解 。 a 
推论 上 述 可 加 参数 的 平均 值 由 
[2" IC, (2)/ Ty (二 又 Catalan 树 ) 
[2 1Cg(2)/ Tya (一 般 Catalan 树 ) 
[z”]Ce(z) (二 又 查找 树 ) 
给 出 。 


证 明 这 些 结果 直接 从 定义 和 定理 3.11 得 出 。 B 
这 极 大 地 推广 了 我 们 做 过 的 计数 和 路 径 长 分 析 ， 并 使 我 们 能 够 分 析 许多 重要 的 参数 。 本 
章 较 时 一些 定理 中 得 到 的 计数 和 路 径 长 的 结果 都 可 以 从 这 个 定理 的 简单 应 用 得 到 。 例 如 ， 为 
了 计算 二 叉 Catalan 树 中 的 平均 路 径 长 ， 我 们 有 





E,(z) =1+ > tl-1z”" =142T'(z)- T(z) 


因此 
D= zT'(z)- T(z) +1 


Cr( ) Vi-4z 


它 等 价 于 定理 5.3 的 证 明 中 得 到 的 表达 式 。 

树叶 。 作 为 定理 5.7 对 于 一 个 新 问题 使 用 的 例子 ， 我 们 考虑 上 述 三 种 模型 中 每 一 种 模型 的 
树叶 平均 数 的 分 析 。 这 是 与 递归 结构 内 存 分 配 相 关 的 一 类 重要 问题 的 代表 。 例 如 ， 在 一 棵 二 
又 树 中 ， 如 果 空 间 非 常 宝贵 ， 那 么 我 们 不 需要 在 树叶 上 保留 指针 : 取代 的 方法 是 把 它们 标记 
作 树叶 〈 用 一 个 比特 位 ， 而 不 是 指针 )， 使 用 所 谓 的 变 体 记 录 。 用 这 种 方法 节省 多 少 空间 ? 这 
个 问题 的 答案 依赖 于 树 模 型 : 确定 树叶 的 平均 数 是 定理 5.7 的 一 个 直接 应 用 ， 使 用 e(1) = ôm 
因此 Ex(z) = Ec(z) = E,(z) = z. 

第 一 ， 对 于 二 又 Catalan 树 ， 我 们 有 Cxz) = z/ Vi-4z。 这 正好 匹配 3.12 节 中 得 到 的 结果 。 

第 二 ， 对 于 一 般 Catalan 树 我 们 有 


z z 
C, = 二 + 
c(z) 2 


2y1—4z 





它 导出 对 于 N> 1 平均 值 恰 好 是 N/2 的 结果 。 
第 三 ， 对 于 二 又 查 找 树 ， 我 们 得 到 


1 1 1 
C,(z) “Zap 13k? 


(1-z) 
因此 对 于 N> 1 树叶 的 平均 数 为 (N + 1V3. 
推论 对 于 N>1， 树 叶 的 平均 数 由 下 面 三 个 式 子 给 出 : 
NN+D N 在 具有 N 个 结 点 的 随机 二 又 Catalan 树 中 





2(2N-1) 4 

Z 在 具有 N 个 结 点 的 随机 一 般 Catalan 树 中 

a 在 由 N 个 随机 关键 字 建立 的 二 又 查找 树 中 

证 明 参见 上 面 的 讨论 。 国 


这 些 方 法 在 分 析 涉 及 树 的 算法 中 显然 是 相当 有 用 的 ， 而 且 它 们 在 茶 些 其 他 情形 下 也 是 
适用 的 。 例 如， 在 第 6 章 中 ， 通 过 与 树 的 对 应 ( 见 6.5 节 )， 我 们 还 用 到 这 些 方 法 分 析 排 列 的 
性 质 。 

习题 5.31 求 在 具有 N 个 结 点 的 随机 Catalan 树 中 根 的 子 结 点 的 平均 个 数 〈 从 图 5-3 可 知 ， 
对 N= S 时 答案 为 2) 。 

习题 5.32 ”在 具有 N 个 结 点 的 随机 Catalan 树 中 ， 求 具有 一 个 子 结 点 的 结 点 的 比率 。 

习题 5.33 在 具有 N 个 结 点 的 随机 Catalan 树 中 ， 对 于 k= 2、3 以 及 更 高 的 值 ， 求 具有 K 个 子 
结 点 的 结 点 的 比率 。 

习题 5.34 ”二 又 树 中 的 内 部 结 点 显现 三 种 类 型 之 一 : 它们 或 者 有 2 个 、 或 者 有 1 个 、 或 者 有 
0 个 外 部 的 子 结 点 。 在 具有 N 个 结 点 的 随机 二 叉 Catalan 树 中 ， 每 种 类 型 的 结 点 各 占 多 大 部 分 ? 
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习题 5.35 对 于 随机 二 叉 查 找 树 回答 前 面 的 问题 。 

习题 5.36 建立 关于 树叶 数目 的 BGF， 并 且 估 计 这 三 种 随机 树 模 型 中 每 个 的 方差 。 

习题 5.37 证 明 这 些 关系 类 似 于 定理 5.7 中 关于 BGF 的 那些 关系 。 
5.9 高 

一 棵 树 的 平均 高 是 多 少 ? 路 径 长 分 析 (使 用 5.3 节 中 的 第 2 个 引 理 ) 提出 对 于 Catalan (二 
叉 或 一 般 ) 树 N2 阶 和 Na%4 阶 的 下 界 和 上 界 以 及 对 于 二 叉 查找 树 的 logN 阶 和 VNlogN 阶 的 下 界 
和 上 界 。 得 到 平均 高 的 更 精确 的 估计 实际 上 是 一 个 更 难 回 答 的 问题 ， 尽 管 高 的 递归 定义 跟 路 
径 长 的 递归 定义 同样 的 简单 。 树 的 高 等 于 1 加 上 各 子 树 的 高 的 最 大 值 ， 而 树 的 路 径 长 则 是 1 加 
上 各 子 树 的 路 径 长 的 和 再 加 上 各 子 树 中 的 结 点 数 。 我 们 已 经 看 到 ， 后 者 的 分 解 可 以 对 应 从 子 
树 “ 构 建 ” 树 ， 而 可 加 性 是 (通过 开销 GF 方程 的 线性 性 ) 在 分 析 中 得 到 的 反应 。 这 样 的 处 理 
均 不 适用 对 子 树 取 最 大 值 的 操作 。 

二 又 Catalan 树 的 生成 函数 。 我 们 从 计算 二 又 Catalan 树 高 的 问题 开始 。 为 了 按照 对 路 径 长 
的 方式 进行 ， 我 们 开始 考虑 二 元 生成 函数 

P(u, z)= SY Pau'z" = ye 


Oh >0 


现在 ， 高 的 递归 定义 导出 下 面 结果 


Plu z= >, Ye 
kd 
PE t, 


对 于 路 径 长 ， 本 来 是 能 够 重新 整理 成 一 些 独立 的 和 的 ， 但 是 “max” 妨 碍 了 这 么 做 。 
另 一 方面 ， 使 用 在 3.12 节 所 描述 的 二 元 序列 的 “垂直 ”公式 表示 ， 我 们 可 以 得 到 一 个 简单 
的 函数 方程 。 令 万 为 树 高 不 大 于 /的 二 又 Catalan 树 的 集合 ， 并 有 


T(z) = > z" 


按照 与 计数 相同 的 方式 进行 ， 则 可 得 到 To(z) 的 一 个 简单 函数 方程 :其 高 不 大 于 / + 1 的 任何 树 
或 者 是 空 树 ， 或 者 是 一 个 根 结 点 和 两 棵 其 高 不 大 于 /的 子 树 ， 于 是 


T(z) = 1 + 之 ee 
1S ERA 


=1+zT™ (27 
这 个 结果 通过 符号 方法 也 容易 得 到 : 它 对 应 符号 方程 
Thar = {CO} + {0} * 7% Tn 
迭代 该 递归 ， 得 到 
T(z) =1 
T(z) =1+z 
T(z) =14+ 7422? +z? 


T°\(z) = 1474227 +5z +624 462° 442° +2’ 


T(z) 1474227 +52 +14z +42z° +132z° +--+ = T(z) 





A CA 


读者 可 能 发 现 对 于 图 3-1 中 给 出 的 那些 小 树 的 初始 值 验证 这 些 公式 是 有 助 于 理解 的 。 现 在 ， 定 
理 3.11 的 推论 告诉 我 们 ， 累 计 开 销 (N 个 结 点 的 所 有 的 树 的 高 的 和 ) 由 


[z*] > (T(z)- T”) 


给 出 。 不 过 我 们 现在 的 分 析 任 务 要 困难 的 多 ， 我 们 不 是 去 估计 那 种 已 经 有 一 个 确定 的 函数 方 
程 的 函数 的 展开 式 中 的 系数 ， 我 们 需要 的 是 估计 由 那些 相关 函数 方程 定义 的 一 系列 函数 展开 
式 的 系数 。 这 对 于 该 特定 问题 实际 上 是 一 个 非常 艰巨 的 任务 。 
定理 5.8 (二 又 树 的 高 ) 具有 N 个 结 点 的 随机 二 又 Catalan 树 平均 高 为 2 VTMN + 
O(N 9， 其 中 Ee>0 是 任意 实数 。 
证 明 忽略 证 明 ， 不 过 我 们 可 以 看 到 上 面 的 评述 。 细 节 可 以 在 Flajolet 和 Odlyzko[10] 中 找到 。 国 
Catalan 树 的 平均 高 。 对 于 一 般 Catalan 树 ， 确 定 平均 高 的 问题 仍然 比分 析 路 径 长 要 困难 得 
gZ, WRN ARE. ES: 该 简 述 涉及 从 第 2 章 到 第 4 章 许多 先进 方法 的 结合 ， 应 该 
提醒 读者 谨慎 处 理 。) 256 
首先 ， 我 们 通过 
=i EGG GtG G* GHR GX Gx H+) 
构造 高 <h+ 1 的 树 的 集合 扬 ;!， 上 式 由 符号 方法 翻译 成 


GHz) - zl + GUI(z) + Gz) + Gz) + G"Izy" + +++) = og 


选 代 该 递归 ， 我 们 看 到 











G™(z)=z 
G") =z 
1-z 
l-z 
GPz)= z = 
(2) -7 ziaz 
l-z 
1-2z 
Gz) = Z = 
@) 1-2 1-3z+z’ 
1- 
l-z 


G! (z) =z +z? +22 +5z° +14z* + 42z +1322’ ++- =zT(2) 


这 些 有 理 函 数 具有 足够 的 代数 结构 ， 使 得 我 们 能 够 得 到 关于 高 的 精确 计数 以 及 获取 渐 近 
估计 。 


定理 5.9 (Catalan 树 高 GF) 具有 N + 1 个 结 点 且 其 高 大 于 或 等 于 hh 一 1 的 Catalan 树 的 数 


AA 
G g'a. 2N \ a NY 2N 
Ney Ne >> N+1-kh} “\N-kh) \N-1-kh 


证 明 从 基本 递归 和 上 面 给 出 的 初始 值 不 难 验 证 ，Gm(a 可 以 表示 成 GCCz) = Fy Fair® 
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的 形式 ， 其 中 Fi(z) 为 满足 递归 
Faal) = Fan) - ZF, (2) (h20, Fo(z)=0, F(z)= 1) 
的 多 项 式 
F(z)=0 
F(z)=1 
E(z)=1 
F(z)=1-z 
F,(z) =1-2z 
F,(z)=1-3z24+27 
F(z) =1-42 432" 
F(z) =1-5z+62? -2° 


KK. MAM RAR SHA, AAEM TERRE, JAA = -1 时 斐 波 那 
契 多 项 式 的 值 。 . ' 

当 z 国 定时 ， 上 述 斐 波 那 契 多 项 式 递归 是 简单 的 常 系数 线性 递归 ( 见 2.4 节 )。 于 是 ， 它 的 
解 可 以 表示 成 特征 方程 7 - y + z = 0 的 解 


1+v1-4 a 1--v1l-4z 
b= + > z 和 _ 1 


正如 2.4 节 对 斐 波 那 契 数 所 做 的 那样 ， 精 确 求解 则 得 到 
有 - pr B ， Bi - pe 
F(z) = BoB 因此 6G! WO gr pr 





注意 ， 这 些 根 是 与 CatalanGF 紧 密 相关 的 : 
B=G) =T) 和 B= cP = zG) = WTC) 
此 外 ， 我 们 还 有 恒等式 
z=-pd4- 有 =p0- 月 
总 而 言 之 ， 具 有 有 界 高 的 树 的 GF 满 足 公式 


CGIm(z) = 2z (1+ -V1-4z)""! -(1- A- 4z)" 

(i+ V1-4z)"" -a-V1-4z)" 
且 只 需 少 许 代数 运算 即 可 得 到 

h+2 
G2) -GD = I-42 a 

Kp, u = Bp = GXz)/z。 这 是 G(z) 的 一 个 函数 ， 它 间接 地 由 z = G(z)(1 - G(z)) 定义 ， 因 此 拉 
格 朗 日 反 演 定理 (3.10 节 中 的 定理 3.9) 适用 ， 于 是 〈 经 过 一 些 计 算 ) 推出 对 于 [z** KGE) ~ 
G*- A(z)) 所 述 的 结果 。 a 


推论 具有 N 个 结 点 的 随机 Catalan 树 的 平均 高 为 VxN +O(1)- 
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证 明 概 要 . 根据 定理 3.11 的 推论 ， 平 均 高 由 下 式 
[z*](G(z)- G”) 
» Go 
给 出 。 由 定理 5.9， 它 可 以 化 成 三 个 和 ， 它 们 很 像 Catalan 和 ， 并 且 可 以 用 类 似 于 定理 4.9 的 证 明 
方式 处 理 。 从 二 项 式 系数 尾部 的 渐 近 结果 (定理 4.6 的 推论 ) 可 知 ， 对 于 大 的 h 这 些 项 指数 上 是 小 
的 。 应 用 定理 5.9 二 项 式 和 中 每 一 项 尾部 的 界 ， 对 于 h> VN log N 我 们 有 


[z*](G(z)- GCCz)) = ONA" e N) 


KEABRH, MAp AON logN)。 
对 于 /的 更 小 的 值 ， 定 理 4.6 的 正 态 近似 效果 很 好 。 正 如 我 们 在 定理 4.9 的 证 明 中 所 做 的 ， 
使 用 逐 项 近似 能 够 证 明 
IzG- G" 0) | HhINN) 
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其 中 ， 
Ho = VY (4k? -2e 
名 


正 像 图 4-7 中 所 画 的 trie 和 ， 函 数 H(h/VYN) 当 h 小 的 时 候 接近 于 1 而 当 h 大 的 时 候 接 近 于 0， 当 h 
接近 VN 的 时 候 将 发 生 从 1 到 0 的 转变 。 此 时 ， 通 过 欧 拉 -麦克 劳 林 求 和 以 及 简单 的 积分 求 值 ， 
期 望 的 高 近似 地 表示 为 


DHA NWINE Rd 
a1 


在 最 后 的 几 步 ， 我 们 忽略 了 误差 项 ， 这 些 项 必须 适当 地 保持 一 致 。 按 照 这 种 问题 通常 的 
做 法 ， 这 样 处 理 是 不 困难 的 ， 因 为 他 们 的 尾部 在 指数 上 是 小 的 ， 不 过 我 们 把 细节 留 作 下 面 的 
一 些 习 题 。 对 于 证 明 该 结果 的 相关 但 不 同 的 处 理 的 全 部 细节 在 De Bruijn, Knuth 和 Rice[7] 中 
给 出 。 E 

这 个 分 析 是 本 书 在 处 理 中 最 困难 的 问题 。 它 将 求解 线性 递归 和 连 分 式 〈 第 2 章 ) 的 技巧 、 
生成 函数 展开 ， 特 别 是 通过 拉 格 朗 日 反 演 定理 (第 3 章 ) 并 与 二 项 式 通 近 和 欧 拉 -麦克 劳 林 求 
和 (第 4 章 ) 结合 起 来 。 当 我 们 认识 到 许多 读者 可 能 不 期 望 不 经 过 非常 仔细 的 研究 而 深究 这 种 
范畴 和 复杂 程度 的 证 明 的 时 候 ， 我 们 还 是 给 出 了 某 些 推 导 的 细节 ， 因 为 对 于 高 的 分 析 在 理解 
树 的 性 质 方面 是 极其 重要 的 。 这 种 概述 使 我 们 认识 到 : (i) 分 析 树 的 高 不 是 一 件 容 易 的 工作 ， 
不 过 Gi) 使 用 我 们 在 第 2 章 到 第 4 章 讨论 的 基本 方法 是 能 够 做 到 这 种 分 析 的 。 


习题 5.38 证 明 F,,,(z)= x5 ‘\- -z), 


习题 5.39 指出 使 用 拉 格 朗 日 反 演 定理 展开 G(z) -C -3(z) 的 展开 细节 。 

习题 5.40 提供 书 中 推论 的 详细 证 明 ， 包 括 适当 考虑 误差 项 。 

习题 5.41 画 出 函数 H(x) 的 图 。 

一 叉 查 找 树 的 高 。 对 于 从 随机 排列 建立 的 二 又 查找 树 ， 求 其 平均 高 的 问题 也 是 相当 困难 
的 。 由 于 平均 路 径 长 为 O(NiogN)， 因 此 我 们 期 望 二 又 查找 树 的 平均 高 是 ~clogN， 其 中 c 是 某 个 ”69 
常数 ; 实际 上 情况 正 是 如 此 。 
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定理 5.10 (二 又 查找 树 的 高 ) 从 N 个 随机 关键 字 所 建立 的 二 又 查找 树 期 于 的 高 为 
~ClogN， 其 中 c= 4.31107… 为 cln(2e/c) = 1 当 c>2 的 解 。 


证 明 从 上 略 ， 可 见 Devroye[8] 或 Mahmoud[24]。 ] 

虽然 完全 的 证 明 至 少 像 上 面 给 出 的 Catalan 树 高 的 分 析 一 样 地 令 人 望 而 生 睛 ， 但 是 推导 生 
成 函数 间 的 函数 关系 还 是 容易 做 到 的 。 令 q 岂 为 由 N 个 随机 关键 宇 建立 的 其 高 不 大 于 h 的 BST 的 
概率 。 此 时 ， 使 用 通常 的 分 裂 论 证 并 注意 到 子 树 的 高 不 大 于 h - 1， 则 有 下 列 递归 


[A] _ 1 [h-1] [h-t] 
qn => dk-1 In-1-k 
1<FENn 


它 立即 导出 下 面 的 结果 
iro = (qh "(zy 


栈 高 。 在 算法 分 析 中 经 常 出 现 树 的 高 。 基 本 上 ， 它 不 仅 度量 遍历 树 所 需要 的 栈 的 大 小 ， 
而 且 还 度量 当 递 归程 序 执 行 时 所 使 用 的 空间 。 例 如 ， 在 前 面 讨论 过 的 表达 式 赋 值 算法 中 ， 树 
高 n(DD 度 量 当 由 代表 的 表达 式 被 求 值 时 由 递归 栈 所 达到 的 最 大 深度 。 类 似 地 ， 一 棵 二 又 查找 
树 的 高 度 度量 了 为 给 关键 字 排 序 而 由 递归 中 序 遍 历 所 达到 的 最 大 栈 深度 ， 或 使 用 递归 
Quicksort 的 实现 时 所 用 隐 式 栈 的 深度 。 

树 的 遍历 和 其 他 递归 算法 也 可 以 不 用 递归 而 通过 保留 一 个 下 推 栈 (后 进 先 出 数据 结构 ) 
来 实现 。 当 存在 多 于 一 棵 子 树 要 访问 的 时 候 ， 除 一 棵 外 我 们 把 所 有 的 存储 在 栈 上 ; BRAT 
树 要 访问 的 时 候 ， 我 们 弹出 栈 而 得 到 一 棵 要 访问 的 树 。 这 样 使 用 的 栈 项 比 支持 递归 实现 的 栈 
中 所 需要 的 项 少 ， 因 为 如 果 只 有 一 棵 子 树 要 访问 ， 则 没有 项 需要 进 栈 。( 一 种 称 为 终端 递归 移 
除 (end recursion removal) 的 技巧 有 时 用 于 获得 递归 实现 的 等 价 性 能 . ) 当 一 棵 树 用 这 种 方法 
遍历 时 所 需要 的 最 大 栈 大 小 是 叫做 栈 高 (stack height) 的 树 参数 ， 它 类 似 于 高 。 它 可 以 通过 
递 推 公式 定义 : 


0， 如 果 1! 为 一 外 部 结 点 
oa ho 如 果 ! 为 一 外 部 结 点 
WT s(t), dnt — SBE A, 


1+ max(s(t,),s(t,)) ”其 他 情况 


由 于 旋转 对 应 ， 事 实 上 二 又 Catalan 树 的 栈 高 本 质 上 像 一 般 Catalan 树 高 那样 分 布 。 因 此 ， 二 又 
Catalan 树 的 平均 栈 高 也 在 De Bruijn、Knuth 和 Rice[7] 中 讨论 并 证 明 为 ~ VnN, 

习题 5.42 找 出 二 叉 树 的 栈 高 和 对 应 森林 的 高 之 间 的 关系 。 

寄存 器 分 配 。 当 树 表示 一 个 算法 表达 式 的 时 候 ， 计 算 表 达 式 值 所 需 的 寄存 器 的 最 小 个 数 
可 以 由 下 面 的 递归 公式 描述 : 


0, 如 果 ! 为 一 外 部 结 点 

r(t), 如 果 # 为 一 外 部 结 点 
r(t) =4r(t,), 如 果 # 为 一 外 部 结 点 

1+r(t,), gn Fer (t) = r(t,); 


max(r(t,),r(t,)) 其 他 情况 
这 个 量 的 平均 值 由 Flajolet、Raoult 和 Vuillemin[12] 以 及 Kemp[20] 研 究 。 虽 然 这 个 递归 看 起 来 
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颇 似 高 和 栈 高 的 对 应 递归 ， 但 是 它 的 解 却 不 是 O(YVN) ,而 是 ~ dg N)/2。 
5.10 树 性 质 平均 情形 结果 的 小 结 


我 们 已 经 讨论 了 三 种 不 同 的 树 结构 (二叉树 、 树 、 二 又 查找 树 ) 和 两 个 基本 参数 (RE 
长 和 高 )， 总 共 给 出 六 个 定理 描述 在 这 些 结构 中 的 这 两 个 参数 的 平均 值 。 这 些 结果 中 的 每 一 个 
都 是 基本 的 ， 并 且 值 得 相互 联系 地 考虑 它们 。 在 5.8 节 指出 ， 至 于 这 些 参数 的 基本 解析 方法 可 
以 扩展 到 包括 树 的 许多 的 性 质 ， 我 们 可 以 通过 考查 这 些 参数 和 树 模型 之 间 的 关系 而 把 一 些 新 
的 问题 放 到 适当 的 地 方 。 同 时 ， 我 们 简 述 这 些 结果 的 历史 ， 它 们 被 总 结 在 表 5-1 和 表 5-2 中 。 本 
节 为 了 简洁 ， 把 二 又 Catalan 树 直接 叫做 “二 叉 树 ”，Catalan 树 叫做 “ 树 ”， 二 又 查找 树 叫 做 
“BST”， 我 们 认识 到 ， 在 已 经 讨论 的 一 系列 分 析 中 的 主要 目标 一 直 是 讨论 术语 上 的 区 别 和 确 
定 相 关 随 机 性 模型 上 的 量 的 差别 。 

图 5-6、5-5 和 5-11 分 别 显示 一 片 随机 森林 (不 包括 根 的 随机 树 )、 二 叉 树 和 二 又 查找 树 。 
它们 加 强 了 表 5-1 和 表 5-2 给 出 的 分 析 信 息 : 二 叉 树 和 树 的 高 是 类 似 的 (与 VN 成 比例 )， 树 的 
高 大 约 是 二 叉 树 高 的 一 半 ; 而 二 叉 查 找 树 中 的 路 径 要 短 得 多 (与 logN 成 比例 )。 施 加 到 二 又 查 
找 树 结构 上 的 概率 分 布 对 于 具有 短路 径 的 树 是 有 偏 的 。 

也 许 最 容易 的 问题 是 二 又 查找 树 中 的 路 径 长 分 析 ， 它 容易 用 初等 方法 得 到 ， 这 可 以 回溯 
到 1960 年 Quicksort 的 发 现 [19]。 树 的 构造 开销 的 方差 (与 Quicksort 的 方差 相同 ) 显然 由 
Knuth[22] 首 先 发 表 ; Knuth 指 出 ， 描 述 方差 和 查找 开销 结果 的 递 推 关系 是 在 1960 年 被 发 现 的 。 
通过 对 比 ， 二 又 查找 树 平均 高 的 分 析 是 相当 困难 的 问题 ， 并 且 是 Devroye 在 1986[8][9] 列 出 的 
要 完成 的 表 上 的 最 后 一 个 问题 。 


表 5-1 树 的 期 望 路 径 长 
GF 的 函数 方程 RAE ftt 





-—_—~ N N 
树 Qu, z) = 1 Onn) z- z +O(VN) 
-xp Olu, z) = zQ(u, zu)’ +1 NVAN -3N + O(N) 
9 
BST Fy Ll) = Az, za 2NInN +(2y ~4)N + O(log N) 





随机 树 和 随机 二 又 树 中 的 路 径 长 分 析 起 来 也 不 困难 ， 不 过 使 用 基于 生成 函数 的 或 符号 组 
合 的 工具 是 最 佳 的 处 理 方法 。 使 用 这 样 一 种 处 理 ， 该 参数 (以 及 其 他 可 加 参数 ) 的 分 析 比 计 
数 难 不 了 太 多 。 

树 高 在 基于 树 的 计算 机 程序 和 递归 程序 的 分 析 中 的 中 心 角 色 由 于 它们 的 广泛 使 用 而 是 显 
而 易 见 的 ， 但 是 同样 明显 的 是 ， 像 高 这 种 树 中 的 非 可 加 参数 的 分 析 能 够 带 来 重大 的 技术 挑战 。 
树 高 (以 及 关于 二 叉 树 的 栈 高 ) 的 分 析 一 一 由 De Bruijn、Knuth 和 Rice[7] 于 1972 年 发 表 一 一 证 
明了 这 样 的 挑战 通过 使 用 一 些 已 知 的 分 析 技 巧 是 能 够 被 克服 的 ， 我 们 在 5.9 节 已 经 概述 过 了 。 
不 过 ， 企 图 锁 着 这 些 方向 获取 新 的 结果 即使 是 对 专家 来 说 丽 怕 也 是 令 人 望 而 生 县 的 工作 。 例 
如 ， 二 又 树 高 的 分 析 直 到 1982 年 才 被 Flajolet 和 Odlyzkof10] 完 成 。 

随机 树 中 的 路 径 长 和 高 的 分 析 是 值得 仔细 研究 的 ， 因 为 它们 阐述 了 生成 函数 的 威力 ， 以 
及 那 种 适用 于 递归 结构 中 “可 加 ”和 “ 非 可 加 ”参数 的 分 析 中 的 对 比 模式 。 我 们 在 下 一 节 将 
看 到 ， 树 直接 与 概率 和 组 合 数学 中 许多 经 典 问题 相关 ， 因 此 ， 我 们 考虑 的 某 些 问题 具有 非凡 


262 





168 BSE 





的 传统 ， 这 可 以 向 前 追 调 到 一 或 两 个 世纪 。 但 是 ， 为 路 径 长 和 高 研发 精确 的 渐 近 结果 的 动机 
自然 可 以 归结 为 树 在 算法 分 析 中 的 重要 性 〈 见 Knuthi7][21][22] )。 





表 5-2 树 的 期 望 高 
GF 的 函数 方程 均值 的 浙 近 估 计 
+ z 
树 q" 1(z) = Ta) aN + oO) 
二 叉 树 q" Ne) = zg" +1 AJEN + O(N") 
d + 
BST af Nz) = (gq "(2 (4.3110--)InN + o(log N) 





5.11 树 和 二 叉 树 的 表示 


由 于 旋转 对 应 ， 树 和 二 叉 树 可 以 看 作 是 表示 相同 组 合 学 对 象 (它们 可 以 用 Catalan 数 计数 ) 
的 两 种 特殊 的 方式 。 还 出 现 一 些 表 示 它 们 的 其 他 方法 (例如 ， 可 见 Read[28] ) ， 其 中 的 一 部 分 
在 这 里 摘 述 。 

括号 系统 。 每 片 具有 N 个 结 点 的 森林 均 对 应 一 组 N 对 括号 : 由 定义 可 知 ， 存 在 一 系列 的 树 ， 
每 棵 树 都 由 一 个 根 和 具有 相同 结构 的 一 些 子 树 组 成 。 如 果 我 们 认为 ， 每 棵 树 都 应 该 放 人 括号 
中 ， 那 么 我 们 就 立即 得 到 只 使 用 括号 的 一 种 表示 法 : 对 于 森林 中 的 每 一 棵 树 ， 写 一 个 左 括号 ， 
接着 是 包含 这 些 (递归 确定 的 ) 子 树 的 森林 的 括号 系统 ， 后 面 跟着 一 个 右 括号 。 例 如 ， 图 $-4 
左边 的 森林 可 以 由 

dO) O Oy) O (O OF (()) 
表示 。 在 这 种 表示 和 树 结 构 之 间 的 关系 通过 在 对 应 这 些 括 号 括 起 的 树 的 根 结 点 的 各 层 书 写 括 
号 是 容易 看 清 的 ， 做 法 如 下 : 
( ) O ( ) ( ) 
€) () 0 O () () 
() 
将 这 种 结构 套 登 在 一 起 则 得 到 括号 系统 表示 法 。 

用 树 遍 历 方法 的 术语 表述 ， 我 们 可 以 发 现 通过 递归 地 遍历 一 棵 树 则 括号 系统 对 应 该 树 : 
当 沿 边 下 行 时 写 一 个 “(”， 而 当 沿 边 上 行 时 写 一 个 “)”。 等 价 地 ， 我 们 可 以 把 “(” 当 作对 应 
“开始 一 个 递 妇 调用 ”， 而 把 “)” 当 作对 应 “终止 一 个 递归 调用 ”。 

我 们 用 这 种 方法 只 是 描述 树 的 形状 ， 而 不 是 结 点 中 所 包含 的 任何 信息 一 一 下 面 我 们 考虑 一 
些 表 示 法 ， 如 果 结 点 含有 相关 的 关键 字 或 其 他 附加 人 信息， 那么 这 些 表示 法 是 适用 的 。 

树 形 状 的 空间 -有 效 表 示 法 。 括 号 系统 用 2NM + O(1) 个 比特 的 序列 将 大 小 为 N 的 树 编码 ， 这 
比 树 使 用 指针 的 标准 表示 法 明显 地 低 。 实 际 上 ， 它 接近 信息 理论 最 佳 的 编码 长 度 ， 即 Catalan 
数 的 对 数 : 

lgTy = 2N — O(logN) 
树 形状 的 这 种 表示 法 在 非常 大 的 树 必须 要 存储 (例如 数据 库 的 下 标 结构 ) 或 传输 (例如 哈 夫 
曼 树 的 表示 法 ; 见 Sedgewick[29]) 的 应 用 中 是 非常 有 用 的 。 

树 的 先 序 和 后 序 表 示 法 。 将 括号 系统 扩展 到 包含 结 点 上 的 信息 是 简单 的 。 如 同 树 的 遍历 ， 

根 结 点 的 信息 可 以 在 子 树 之 前 〈 先 序 ) 列 出 ， 也 可 以 在 子 树 之 后 (后 序 ) 列 出 。 因 此 ， 图 5-4 
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左边 的 森林 的 先 序 表 示 为 
(5(2(1))(3)(4))(6)(9(7)(8))(11(10)) 
而 后 序 表示 则 是 
(((1)2)(3)(4)5)(6)((7)(8)9)((10)11) 
当 我 们 下 面 讨 论 细节 的 时 候 ， 将 使 用 先 序 的 术 话 ， 当 然 两 种 表示 法 实质 上 是 等 价 的 ， 这 种 精 
化 的 讨论 也 适用 于 后 序 。 
先 序 度 表 示 法 。 表 示 图 $-4 中 的 森林 形状 的 另 一 种 方法 是 整数 串 
3100002001 0 
即 以 先 序 列 出 各 结 点 的 子 结 点 数 。 为 了 看 清 为 什么 这 是 唯一 的 表示 法 ， 让 我 们 考虑 同一 个 序 
列 ， 但 要 从 每 一 项 减 去 1: 
2 0 -1 -l -1 -1 1 -1 -1 0 -1 
从 左 到 右 进行 可 以 分 成 若干 子 序列 ， 具 有 如 下 性 质 : (i) 子 序列 中 的 数 的 和 为 -1 以 及 (ii) + 
序列 中 的 数 的 任意 前 缀 的 和 大 于 或 等 于 -1。 用 括号 给 子 序列 定 界 ， 得 到 
(2 0 -1 -1 -1)(-1)(1 -1 -1)(0 -1) 
这 就 给 出 一 个 到 括号 系统 的 对 应 : 这 些 子 序列 中 的 每 一 个 均 对 应 森林 中 的 一 标 树 。 删 除 每 个 
序列 中 的 第 一 个 数 并 递归 地 分 解 则 得 到 括号 系统 。 现 在 ， 每 个 被 括 起 来 的 数列 不 仅 和 为 -1， 
而 且 还 有 性 质 : 任意 前 级 的 和 是 非 负 的 。 通 过 归纳 法 直接 证 明 ， 条 件 (i) 和 (ii) 是 在 整数 
序列 和 树 之 间 建 立 直接 对 应 的 充分 必要 条 件 。 
二 叉 树 遍历 表示 法 。 二 又 树 的 表示 法 更 简单 ， 因 为 在 外 部 结 点 〈 度 为 0) 和 内 部 结 点 〈 度 


t 


为 2) 之 间 标 记 了 区 别 。 考 虑 图 5-7 中 的 表达 式 树 ， 这 种 熟悉 的 表示 方法 就 是 用 与 在 中 间 的 根 


相应 的 关键 字 列 出 子 树 ， 再 括 起 来 : 
((x + y)*z) - (w + ((a-(v + y))/((2 + y)*x)))) 
当 特别 考虑 算术 表达 式 的 时 候 ， 这 叫做 中 序 (inorder) RPE (infix). CIPF RHAN 
其 中 我 们 写 一 个 “(”， 然 后 遍历 左 子 树 ， 而 后 写 出 在 根 处 的 关键 字 ， 再 遍历 右 子 树 ， 然 后 再 
写 一 个 “)”。 . 
对 应 先 序 遍 历 和 后 序 遍 历 的 表示 方法 可 以 用 类 似 的 方式 定义 。 不 过 对 于 先 序 和 后 序 ， 括 
号 是 不 需要 的 : 外 部 〈 操 作 数 ) 和 内 部 (操作 符 ) 结 点 是 可 识别 的 ; 因此 先 序 结 点 度 序列 是 
隐藏 在 表示 法 中 的 ， 它 确定 树 结构 ， 与 上 面 所 讨论 的 方式 相同 。 这 样 ， 上 面 序列 的 先 序 或 前 
级 (prefix) 列 出 为 
-*+xy2z2tw/-atvy*+2z2yx 
而 后 序 或 后 级 (postfix) 列 出 则 是 
xytz*wavyt-zytx* /+- 
习题 5.43 给 定 一 哥 〔 有 序 ) 树 ， 使 用 旋转 对 应 把 它 作 为 二 又 树 来 考虑 其 表示 法 。 讨 论 有 
序 树 的 先 序 和 后 序 表示 法 与 对 应 二 又 树 的 先 序 、 中 序 和 后 序 表示 法 之 间 的 关系 。 
赌 徒 破产 与 格 路 径 。 对 于 二 叉 树 ， 结 点 或 者 有 两 个 子 结 点 ， 或 者 没有 子 结 点 。 如 果 我 们 
对 每 个 结 点 以 先 序 列 出 比 子 结 点 数 少 1 的 数 ， 那 么 或 者 得 到 +1， 或 者 得 到 - 1， 我们 简单 地 记 
成 + 或 - 。 这 样 ， 一 棵 二 又 树 可 以 被 唯一 地 表示 成 + 和 -的 符号 串 。 图 5-7 中 的 树 变 成 


+++-- -+-++-+--++- -- 


这 种 编码 是 先 序 度 表示 法 的 特殊 情形 。+ 号 和 -号 的 哪些 串 对 应 二 又 树 ? 





赌 徒 破产 序列 。 这 些 串 恰 好 对 应 下 面 的 情况 。 设 一 赌 徒 ， 从 $0 元 开始 并 投 赌 $1 元 。 如 果 
他 输 了 ， 那 么 他 有 $ - 1 元 从 而 破产 ， 但 是 如 果 他 赢 了 ， 那 么 他 就 拥有 $1 并 再 次 投 赌 。 他 的 财 
产 图 就 是 正 - 负 号 序列 的 部 分 和 〈 正 号 的 个 数 减 去 负 号 的 个 数 ) 的 图 。 任 何不 穿 过 $0 点 的 路 径 
( 除 在 最 后 一 步 外 ) 都 代表 赌 徒 可 能 的 破产 路 径 ， 这 样 的 路 径 也 直接 与 二 又 树 对 应 。 给 定 一 棵 
二 又 树 ， 我 们 像 刚 刚 描述 的 那样 做 出 对 应 的 路 径 : 通过 与 我 们 上 面 使 用 的 证 明 有 序 树 的 先 序 
度 表 示 法 有 效 性 相同 的 推理 ， 这 条 路 径 是 赌 徒 的 破产 路 径 。 给 定 赌 徒 的 破产 路 径 ， 恰 好 有 一 
种 方法 将 该 路 径 分 成 两 条 具有 相同 特征 的 子路 径 : 删除 第 一 步 ， 并 在 它 磁 到 $0 轴 的 第 一 位 置 
将 路 径 分 裂 。 这 种 分 裂 (归纳 地 ) 导出 对 应 的 二 又 树 。 

选 对 问题 。 考 虑 这 种 情况 的 第 二 种 方式 是 考虑 一 次 选举 ， 其 中 胜 者 得 到 N + 1 张 选票 ， 而 
败 者 得 到 N 张 选票 。 此 时 正 负 序列 对 应 选票 的 集合 ， 而 对 应 二 叉 树 的 那些 正 - 负 序列 是 那些 在 
选票 被 计数 时 胜 者 从 未 落后 的 序列 。 

格子 中 的 路 径 。 思 考 这 种 情况 的 第 三 种 方式 是 考虑 在 N 行 N 列 方 格 中 的 路 径 。 这 些 路 径 从 


左上 角 到 右 下 角 行进 ， 使 用 一 些 “ 右 ” 步 和 “下 * 步 。 存在 (人 y ] 条 过 样 的 路 径 ， 但 是 每 N+ 1 


条 中 只 有 一 条 开始 “ 右 ” 行 并 且 不 与 对 角 线 交叉 ， 因 为 在 这 些 路 径 和 二 又 树 之 间 存 在 一 个 直 
接 的 对 应 ， 如 图 5-12 所 示 。 显 然 这 是 一 个 赌 徒 被 旋转 45 "的 财产 图 (或 是 在 选举 计 票 时 获胜 者 
的 僵 余 票 的 图 )。 如 果 对 应 的 树 以 先 序 遍历 ， 那 么 这 也 是 栈 大 小 的 图 。 

我 们 将 研究 这 些 赌 徐 破 产 序列 或 第 6 章 和 第 7 章 中 的 选 又 序列 的 性 质 ， 它 们 实际 上 在 排序 
算法 和 归并 算法 的 分 析 中 是 相关 的 ( 见 6.6 节 )， 并 且 它 们 可 以 用 与 串 计数 相关 的 一 般 工 具 来 
研究 ( 见 7.5 节 )。 









图 5-12 图 5-1 中 的 各 二 叉 树 的 格 -路 径 表 示 法 

习题 5.44 找 出 并 证 明 在 NN- 步 财 徒 破产 路 径 和 N - 1 个 结 点 的 有 序 森 林 之 间 的 对 应 的 有 效 性 。 

习题 5.45 ”有 多 少 N 位 二 进 制品 具有 下 述 性 质 : 对 于 所 有 的 上 K， 其 前 上 位 比特 中 1 的 个 数 不 
超过 0 的 个 数 ? 

习题 5.46 ”将 一 有 序 森 林 的 括号 表示 法 与 相关 的 二 叉 树 的 加 - 减 号 表示 法 进行 比较 ， 解 释 
比较 的 结果 。 

习题 5.47 从 加 减 号 表示 法 证 明 ， 对 一 棵 二 叉 树 的 广度 优先 搜索 〈 即 层 序 ， 将 未 访问 的 结 
点 存储 到 一 个 队列 中 ) 和 深度 优先 搜索 HAF, KRH E MSRP) 使 用 相 
同 的 空间 量 。 

平面 细 分 表示 法 。 我 们 讨论 另外 一 种 经 典 的 对 应 ， 因 为 它 在 组 合 数学 中 非常 著名 : “三 角 
剖 分 N 边 形 ”表示 法 ， 在 图 $-13 中 对 图 $-1 左 边 的 那 棵 二 又 树 给 出 该 表示 法 的 显示 。 给 定 一 个 N 
边 形 ， 存 在 多 少 种 方法 把 它 分 成 具有 连接 顶点 的 非 交 叉 “对 角 线 ”的 三 角形 ? 答案 是 Catalan 
数 ， 因 为 它 和 二 又 树 直接 对 应 。 这 个 标示 着 Catalan 数 的 首次 应 用 出 现在 欧 拉 和 Segner1753 年 
的 工作 中 ,大 约 是 在 Catalan 本 人 一 个 世纪 之 前 。 从 图 5-13 看 这 种 对 应 很 简单 : 给 定 一 个 三 角 
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划分 的 N 边 形 ， 在 每 一 条 对 角 线 上 放 一 个 内 部 结 点 并 将 一 个 结 点 〈 根 结 点 ) 放 到 一 条 外 面 的 边 a 
上 ， 将 其 余 每 一 条 外 面 的 边 上 放 一 个 外 部 结 点 。 然 后 把 根 与 其 所 在 三 角形 的 另外 两 个 结 点 连 Ki 
接 起 来 ， 并 且 继续 以 这 种 方式 向 下 连接 到 该 树 的 底层 。 
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图 5-13 UA = Sy NIE 
这 种 特殊 的 对 应 在 组 合 数学 中 是 经 典 的 ， 而 类 似 的 平面 细 分 方法 最 近 已 经 得 到 研发 ， 它 
在 某 些 几何 算法 的 设计 和 分 析 中 很 重要 。 例 如 ，2D- 树 数据 结构 ( 见 Sedgewick[29]) 是 基于 
用 一 些 水 平 线 划分 平面 上 的 一 个 和 矩形 区 域 ， 然 后 再 用 垂直 线 进一步 划分 那些 所 得 到 的 区 域 等 
等 ， 继 续 划分 直到 理想 的 程度 ， 水 平 线 和 垂直 线 交 替 进 行 。 这 种 递归 划分 对 应 树 的 一 种 表示 
法 。 这 种 结构 可 以 用 于 细 分 多 维 空间 以 确定 点 的 定位 及 其 他 应 用 。 
图 5-14 对 于 5- 结 点 树 总 结 了 上 面 讨论 的 最 著名 的 一 些 树 表 示 法 。 我 们 将 详细 讨论 这 些 表 
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图 5-14 二 又 树 、 树 、 括 号 法 、 三 角 剖 分 、 破 产 序列 
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示 法 ， 因 为 Catalan 数 经 常 出 现在 组 合 数学 中 ， 而 且 由 于 Catalan 数 可 以 对 一 种 非常 基本 的 数据 
结构 进行 计数 ， 因 此 它们 也 经 常 出 现在 算法 分 析 中 。 一 种 特定 算法 的 性 质 常常 用 一 种 等 价 的 
表示 法 会 比 男 外 的 表示 法 看 得 更 透彻 。 
习题 5.48 证 明 图 5-13 对 应 下 列 括号 系统 
(COO) (COO)OCOO)ICOOO))  COOI00) 
210 习题 5.49 ” 当 任 一 第 形 的 高 对 宽 的 比率 在 ca 和 1a (a>1 为 常数 ) 之 间 时 ， 给 出 用 细 分 的 
271 EBRR- ARATE, REER YEDA. 
习题 5.50 A-HEZAAHAPEENRHA EMMA, MARTH 
转 又 如 何 呢 9 是 香 在 对 应 一 种 非 对 称 三 角 剖 分 的 N 次 旋转 的 N 棵 树 之 间 存 在 茶 种 关系 ? 
习题 5.51 考虑 具有 下 面 两 个 性 质 的 N 个 整数 的 串 : 第 一 ， 如 果 k>>1 在 该 囊 中 ， 那 么 k 一 1 
也 在 。 第 二 ， 在 任 一 整数 的 任意 两 次 出 现 位 置 之 间 必然 出 现 一 个 更 大 的 整数 。 证 明 长 为 N 的 这 
种 串 的 个 数 可 由 Catalan 数 描述 ， 并 找 出 与 树 或 二 又 树 的 直接 对 应 。 


5.12 无 序 树 


上 面 给 出 的 树 和 森林 的 定义 的 一 个 本 质 方面 是 树 的 序 的 概念 : 单 棵 树 出 现 的 顺序 被 认为 
是 重要 的 。 事 实 上 ， 我 们 一 直 在 研究 的 树 也 叫做 有 序 树 。 当 我 们 考虑 各 种 计算 机 表示 法 ， 或 
者 比如 当 我 们 在 纸 上 画 一 棵 树 的 时 候 ， 顺 序 的 重要 性 是 很 自然 的 ， 因 为 我 们 必然 要 一 棵 一 棵 
有 人 先 有 后 地 画 出 一 一 其 树 以 不 同 顺序 出 现 的 那些 森林 看 上 去 是 不 同 的 。 然 而 ， 对 有 一 些 应 用 
实际 上 顺序 是 无 关 的 ， 树 的 内 在 图 论 结构 占据 核心 重要 的 地 位 。 当 考虑 基本 定义 时 我 们 将 看 
到 这 样 一 些 算法 的 实例 ， 然 后 再 考虑 无 序 树 的 计数 问题 。 

定义 一 棵 无 序 树 是 一 个 添加 到 无 序 树 的 多 重 集 中 的 结 点 〈 叫 做 根 )。( 这 样 的 多 重 集 

称 为 无 序 森 林 。) 


图 5-15 显 示 两 片 森 林 (其 中 的 结 点 刚好 是 做 了 标记 的 ) ， 当 将 它们 作为 无 序 森 林 考 虑 时 ， 
二 者 是 等 价 的 。 
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图 5-15 同一 有 根 无 序 森 林 的 两 种 表示 法 
有 根 无 序 树 。 作 为 有 根 无 序 树 自 然 出 现 的 算法 的 例子 ， 我 们 考虑 求 并 问题 : 给 出 一 个 算 
法 ， 该 算法 将 处 理 N 个 互 异 项 上 的 一 系列 等 价 关 系 ， 如 果 两 项 已 经 等 价 则 返回 0， 如 果 其 关系 
能 够 使 等 价 类 的 个 数 减 1 则 返回 1。 例 如 ， 给 定 标记 为 4 到 O 的 16 项 ， 则 序列 
A=B A#C BeC O#M JsI E=D 
O=N G2A EsF BaD OsP FHA 


应 该 得 到 返回 值 的 序列 





1 1 0 1 1 1 1 1 2 1 1 0 


因为 前 两 个 关系 使 得 4、B 和 C 等 价 ， 然 后 第 3 式 发 现 B 和 C 已 经 等 价 ， 等 等 。 

程序 5.4 给 出 这 个 问题 的 一 个 解法 ， 它 用 到 无 序 森林 的 显 式 “ 父 链 ” 表 示 法 。 将 森林 表示 
成 一 个 数组 : 对 应 每 个 结 点 的 项 是 它 在 包含 它们 的 树 中 父 结 点 的 下 标 那些 根 的 下 标 为 0)。 
算法 认为 根 “表示 ” 树 中 所 有 的 结 点 。 给 定 一 个 结 点 ， 它 对 应 的 根 可 以 简单 地 通过 跟踪 父 链 
直到 发 现 0 而 被 找到 ; 给 定 一 条 边 ， 可 以 找到 对 应 两 条 组 成 边 的 根 。 如 果 两 个 结 点 对 应 相同 的 
根 ， 那 么 它们 属于 相同 的 等 价 类 ， 这 个 新 关系 就 是 多 余 的 ; 否则 该 关系 连接 至 此 尚 不 连通 的 
两 个 成 分 。 图 5-15 中 的 森林 是 由 上 面 给 出 的 例子 构成 的 。 森 林 的 形状 依赖 于 所 见 到 的 关系 以 
及 它们 被 表示 的 顺序 。 





程序 5.4 求 并 

function find(x, y: integer; uf: boolean): boolean; 

var i, j: integer; 

begin 

i := x; while dad[i}] > 0 do i := dad[i]; 

j := y; while dad[j] > 0 do j := dad[j}; 

if uf and (i<>j) then dad[j) := i; 

find := (i<>j) 


end; 





该 算法 沿 着 树 向 上 进行 ， 从 不 考虑 结 点 的 子 树 (甚至 不 测试 有 多 少子 树 )。 从 组 合 学 上 看 ， 
求 并 算法 是 从 关系 的 排列 到 无 序 森林 的 映射 。 程 序 5.4 是 相当 简单 的 ， 对 于 基本 想法 的 各 种 改 
进 已 经 提出 并 得 到 分 析 。 需 要 注意 的 关键 一 点 是 ， 结 点 的 子 结 点 出 现 的 顺序 对 算法 是 不 重要 
的 ， 或 者 说 对 于 相关 树 的 内 部 表示 法 不 重要 一 一 这 些 算法 提供 无 序 树 在 计算 中 自然 出 现 的 一 
个 例子 。 

无 根 (“ 自 由") 树 。 更 一 般 的 概念 是 一 种 没有 根 结 点 之 分 的 树 。 为 了 恰当 定义 “无 根 、 
无 序 树 ”( 通 常 也 叫做 “自由 树 ”， 或 者 就 叫做 “ 树 ”)， 方 便 的 方法 是 从 一 般 到 特殊 ， 从 图 开 
始 ， 图 是 基于 结 点 的 集合 和 它们 之 间 连 通关 系 的 所 有 组 合 学 对 象 的 基本 的 基础 结构 。 


定义 图 是 一 组 结 点 和 一 组 连接 一 对 不 同 结 点 ( 顶 多 连接 任意 一 对 结 点 ) 的 边 的 集合 。 


我 们 可 以 想像 从 某 个 结 点 开始 并 “ 沿 着 ”一 条 边 到 该 边 的 构成 结 点 ， 然 后 再 沿 一 条 边 到 


另外 的 结 点 ， 等 等 。 以 这 种 方法 从 一 个 结 点 通 向 另外 的 结 点 的 边 的 最 短 序列 叫做 简单 路 径 。 
如 果 存 在 一 条 简单 路 径 连 接 图 的 任意 一 对 结 点 ， 那 么 这 个 图 就 是 连通 的 。 从 一 个 结 点 开始 又 
返回 到 它 自 己 的 简单 路 径 叫 做 围 。 

每 标 树 都 是 一 个 图 ; 那么 哪些 图 是 树 昵 ? 众所周知 ， 下 面 四 个 条 件 中 的 任意 一 个 条 件 都 
是 保证 N 个 结 点 的 图 G 是 (无 根 无 序 ) 树 的 充分 必要 条 件 : 

(i) GAN - 1 条 边 并 且 没 有 图 。 

(ii) GAN - 1 条 边 并 且 是 连通 的 。 

(iii) 对 于 G 的 每 一 对 顶点 ， 恰 好 有 一 条 简单 路 径 将 它们 连接 。 

(iv) G 是 连通 的 ， 但 是 如 果 去 掉 其 任意 一 条 边 均 不 再 连通 。 
就 是 说 ， 我 们 可 以 用 这 些 条 件 中 的 任意 一 个 来 定义 自由 树 。 

作为 以 一 种 自然 方式 产生 自由 树 的 算法 的 例子 ， 考 虑 我 们 能 够 提出 的 关于 图 的 最 基本 问 
题 : 它 是 连通 的 ， 还 是 不 连通 ? 就 是 说 ， 每 一 对 顶点 都 存在 一 条 路 径 连 接 它们 吗 ? 如 果 是 这 
样 ， 那 么 就 存在 组 成 这 种 路 径 的 边 的 一 个 最 小 集 ， 称 之 为 图 的 生成 树 (spanning tree). MAR 
图 不 连通 ， 则 存在 生成 森林 ， 其 每 个 连通 部 分 有 一 棵 树 。 图 5-16 给 出 一 个 巨型 图 的 一 棵 生成 
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图 5-16 一 个 巨型 图 和 它 的 一 棵 生成 树 
定义 N 个 顶点 的 图 的 生成 树 是 图 的 形成 一 棵 树 的 N - 1 条 边 的 集合 。 


按照 树 的 基本 性 质 ， 生 成 树 必然 包含 所 有 的 顶点 ， 它 的 存在 证 明 所 有 点 对 都 通过 某 条 路 
径 而 相连 。 生 成 树 是 无 根 无 序 树 。 

求生 成 树 的 一 个 著名 算法 是 Kruskal 算 法 : 依次 考虑 每 条 边 ， 检 查 向 当前 组 成 所 建部 分 生 
成 树 的 集合 添加 下 一 条 边 是 否 会 有 圈 生 成 。 如 果 没 有 ， 则 把 该 边 加 入 到 生成 树 中 并 继续 考虑 
下 一 条 边 。 当 集合 含有 N 一 1 条 边 的 时 候 ， 这 些 边 则 代表 一 棵 无 序 无 根 树 ; 实际 上 ， 它 就 是 该 
图 的 生成 树 。 实 现 Kruskal 算 法 的 一 种 方法 是 使 用 上 面 为 测试 圈 而 给 出 的 求 并 算法 。 求 解 生成 
树 的 许多 其 他 方法 已 经 设计 出 来 并 进行 了 分 析 。 不 过 ， 现 在 要 注意 的 关键 一 点 是 ，Kruskal 算 
法 是 在 计算 中 自然 产生 自由 树 的 一 个 例子 。 

组 合 学 文献 包含 大 量 的 图 论 材料 ， 包 括 许多 教科 书 ; 而 计算 机 科学 文献 包含 大 量 图 论 算 
法 的 材料 ， 也 包括 许多 的 教科 书 。 当 然 ， 全 面 囊 括 这 些 材料 将 超出 本 书 的 范围 ， 但 是 ， 理 解 
要 探讨 的 较 简单 的 结构 和 算法 ， 对 于 处 理 关于 随机 图 的 性 质 和 图 的 算法 分 析 的 更 困难 问题 是 


有 效 的 准备 。 我 们 一 直 在 考虑 的 那些 方法 直接 适用 的 图 论 问 题 的 例子 可 以 在 [13] 和 经 典 的 参考 


文献 Harary 和 Plamer[18] 中 找到 。 在 第 8 章 还 将 考虑 某 些 特殊 的 图 。 不 过 现在 让 我 们 回 到 对 各 
种 类 型 的 树 的 研究 上 来 。 2 
2 


习题 5.52 对 NN 个 被 标记 顶点 的 2(2) 个 图 中 有 多 少 是 自由 衬 ? 

习题 5.53 ”对 于 上 面 列 出 的 四 个 性 质 中 的 每 一 个 ， 证 明 其 他 三 个 性 质 可 以 推出 。( 这 实际 
上 是 12 道 习题 ! ) 

树 的 分 级 结构 。 我 们 已 经 定义 的 树 的 四 种 主要 类 型 形成 一 种 分 级 结构 ， 如 表 5-3 中 的 总 结 
和 描述 。(i) 自由 树 是 最 一 般 的 简单 无 圈 连 通 图 ; (ii) 有 根 树 有 一 个 特殊 的 根 结 点 ; (iii) 
有 序 树 是 一 种 有 根 树 ， 但 是 其 结 点 的 子 树 顺 序 很 重要 ; (iv) 二 又 树 是 具有 下 面 进 一 步 限制 
的 有 序 树 : 每 一 个 结 点 的 度 为 0 或 2。 在 我 们 使 用 的 命名 法 中 ， 形 容 词 描述 了 将 每 一 种 类 型 的 
树 与 在 分 级 结构 中 它 上 面 的 那 种 类 型 分 开 的 特征 。 将 每 一 种 类 型 的 树 与 在 分 级 结构 中 它 下 面 
的 那 种 类 型 分 开 的 命名 法 也 常常 使 用 。 因 此 ， 有 时 我 们 把 自由 树 称 为 无 根 树 ， 有 根 树 称 为 无 
序 树 ， 而 有 序 树 称 为 一 般 Catalan 树 。 

在 文献 中 出 现 的 多 种 称呼 也 是 可 用 的 。 有 序 树 常常 叫做 平面 树 ， 而 无 序 树 也 叫做 非 平 面 
树 。 术 语 平面 的 使 用 是 因为 这 些 结构 通过 平面 上 的 连续 操作 可 以 互相 变换 。 虽 然 这 个 术语 被 
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广泛 使 用 ， 但 是 我 们 还 是 更 愿意 使 用 有 序 ， 因 为 它 关于 计算 机 表示 法 具有 自然 的 含义 。 表 5-3 
中 的 术语 有 向 指 的 是 下 面 的 事实 : 根 是 特殊 的 ， 因 此 存在 边 朝 向 根 的 方向 ; 如 果 从 上 下 文 不 
能 明显 看 出 存在 一 个 所 提 到 的 根 ， 那 么 我 们 更 愿意 使 用 术语 有 根 的 。 


R5-3 树 的 命名 法 小 结 


其 他 名 字 基本 性 质 相同 的 树 ” ”不 同 的 树 
自由 树 无 根 树 连通 的 
树 Fl K ? A l 
根 树 种 植树 给 定 根 结 点 
= pay Ay 
无 序 树 


有 序 树 平面 树 结 点 次 序 重要 A A 小 A 
Catalan 树 
二 又 树 二 又 Catalan 树 左 ， 右 子 树 人 KR KR A 


随 着 定义 越 来 越 严格 ， 被 认为 是 不 同 树 的 数目 越 来 越 大 ， 因 此 ， 给 定 树 的 大 小 ， 有 根 树 
比 自由 树 多 ， 有 序 树 比 有 根 树 多 ， 二 又 树 比 有 序 树 多 。 事 实 上 ， 有 根 树 的 数目 与 自由 树 的 数 
目 之 间 的 比率 与 N 成 正比 ; 有 序 树 对 有 根 树 的 对 应 比率 随 着 指数 地 增长 ， 二 又 树 对 有 序 树 的 
比率 为 常数 。 本 节 的 其 余部 分 专门 推导 解析 结果 ， 这 些 结果 将 量化 上 述 特 性 。 计 数 结果 在 表 
5-4 中 做 了 概括 。 





图 5-17 具有 5 个 结 点 的 树 (有 序 树 、 无 序 树 以 及 无 根 树 ) 

图 5-17 是 对 具有 5 个 结 点 的 树 的 分 级 结构 的 解释 。 图 中 画 出 14 种 不 同 的 5- 结 点 有 序 树 ， 这 
些 树 用 小 阴影 和 较 大 的 开 和 矩形 被 进一步 组 织 成 等 价 类 。 存 在 9 种 不 同 的 5- 结 点 有 根 树 (那些 在 
阴影 矩形 中 的 树 作为 有 根 树 是 恒 等 的 ) 和 3 种 不 同 的 5- 结 点 自由 树 〈 被 封 在 那些 大 矩形 中 的 树 
作为 自由 树 是 恒 等 的 )。 有 趣 的 是 要 注意 ， 作 为 一 种 分 级 结构 ， 这 种 表示 法 本 身 可 以 被 表示 成 
一 棵 树 (见习 题 5.48)。 注 意 ， 刚 刚 在 图 5-17 中 给 出 的 计数 对 应 表 5-4 中 的 第 4 列 (N= 5)。 

从 组 合 学 的 观点 看 ， 我 们 也 许 对 自由 树 更 感 兴趣 ， 因 为 它们 在 最 本 质 的 水 平 上 分 辨 这 些 
结构 。 从 计算 机 应 用 的 观点 看 ， 我 们 或 许 对 二 叉 树 和 有 序 树 更 感 兴趣 ， 因 为 它们 具有 标准 的 
计算 机 表示 法 能 够 将 树 唯一 确定 的 性 质 ， 而 我 们 对 有 根 树 的 兴趣 在 于 它们 是 典型 的 递归 结构 。 
在 本 书 中 ， 我 们 考虑 所 有 这 些 类 型 的 树 不 仅 因为 它们 均 出 现在 重要 的 计算 机 算法 中 ， 而 且 还 





277 
l 
279 


176 g5# 





因为 对 它们 的 分 析 儿 乎 阐释 了 我 们 介绍 的 所 有 解析 方法 。 但 是 ， 我 们 保持 对 算法 的 偏好 ， 将 
树 这 个 词 保留 给 有 序 树 ， 后 者 您 怕 是 以 最 自然 的 方式 出 现在 计算 机 应 用 之 中 的 。 组 合 数学 教 
材 更 一 般 地 将 不 加 修饰 的 “ 树 ” 用 来 描述 无 序 树 或 自由 树 。 


表 5-4 非 标 号 树 的 计数 


2 3 4 5 6 7 8 9 10 N 
自由 树 i 1 2 3 6 11 23 47 106 ~c a“ N"? 
根 树 2 4 9 20 48 115 286 719 ~c aX INe? 
有 序 树 1 2 5 14 42 132 429 1430 4862 ~c" N’? 
二 叉 树 2 5 14 42 132 429 1430 4862 16 796 ~(4c,)4%/NE? 


a = 2.9558, cl = 0.5350, c, = 0.4399, c, = 1/4 Va = 0.1410 


习题 5.54 在 所 有 6 个 结 点 的 有 序 树 之 间 哪 种 6 一 结 点 自由 树 结构 最 常 出 现 ? (图 5-17 指 出 
对 5 一 结 点 的 管 案 为 图 中 间 的 那 棵 树 。) 

习题 5.55 ”对 于 7、8 以 及 更 多 的 结 点 回答 上 一 道 习 题 的 问题 ， 能 回答 到 多 少 结 点 就 回答 
到 多 少 结 点 。 

在 二 又 树 搜索 和 使 用 二 又 树 的 其 他 算法 中 ， 我 们 直接 使 用 连接 到 子 树 的 链 的 序 偶 表示 子 
树 的 序 偶 。 类 似 地 ， 表 示 一 般 Catalan 树 子 树 的 典型 方法 是 链接 到 子 树 的 有 序 表 。 在 树 和 它们 
的 计算 机 表示 之 间 存 在 着 一 一 对 应 。 实 际 上 ， 我 们 在 5.11 节 以 一 种 明确 的 方式 讨论 过 表示 树 
和 二 又 树 的 一 些 不 同方 法 。 当 考虑 对 有 根 树 和 自由 树 的 表示 时 ， 情 况 是 不 同 的 ， 我 们 面 对 几 
种 不 同 的 方式 以 表示 同一 棵 树 。 这 在 算法 设计 和 分 析 中 有 许多 的 含义 。 典 型 的 例子 是 树 的 同 
构 问 题 : 给 定 两 个 不 同 的 树 表示 法 ， 确 定 是 否 它们 表示 相同 的 有 根 树 ， 或 相同 的 自由 树 。 当 
然 ， 在 算法 分 析 中 ， 每 棵 树 的 表示 方法 数 可 能 对 研究 这 样 的 算法 产生 影响 。 

在 使 用 树 的 分 析 算 法 中 过 到 的 第 一 个 挑战 是 找 出 一 个 概率 模型 ， 该 模型 真实 地 近似 即将 
发 生 的 情况 。 这 些 树 是 随机 的 吗 ? 树 的 分 布 是 由 外 部 随机 性 引起 的 吗 ? 树 的 表示 法 如 何 影响 算 
法 和 分 析 ? 许 许多 多 的 分 析 问 题 由 此 而 产生 。 例 如 ， 上 面 提 到 的 “ 求 并 ”问题 已 经 在 使 用 一 些 
不 同 的 模型 进行 分 析 ( 见 Knuth 和 Sch6nhage[23])。 我 们 可 以 假设 ， 等 价 关 系 的 序列 是 随机 的 
结 点 对 ， 或 它们 对 应 随机 森林 中 的 一 些 随 机 边 ， 等 等 。 我 们 已 经 在 二 又 查找 树 和 二 又 Catalan 树 
中 看 到 ， 基 本 的 递归 分 解 导致 分 析 中 的 类 似 ， 而 所 得 到 的 分 布 则 导致 分 析 中 明显 的 差别 。 

对 于 各 种 各 样 的 应 用 ， 我 们 的 兴趣 可 能 在 于 那些 度量 各 种 类 型 的 树 的 基本 特性 的 参数 值 ， 
因此 我 们 面 对 许多 的 分 析 问 题 要 考虑 。 计 数 的 结果 是 经 典 的 〈 见 [18]、[27] 和 [21])， 并 在 表 
5-4 中 做 了 总 结 。 这 些 结果 的 某 些 推导 的 讨论 在 下 面 给 出 。 通 过 符号 方法 容易 得 到 生成 函数 的 
国 数 方程 ， 但 是 对 系数 的 渐 近 估计 在 某 些 情况 下 稍微 超出 本 书 的 范围 。 更 多 的 细节 可 以 在 
[13] 中 找到 。 

习题 5.56 给 出 一 个 有 效 的 算法 ， 该 算法 以 表示 一 棵 树 的 一 组 边 作为 输入 ， 并 且 产 生 该 树 
的 括号 系统 表示 法 作为 输出 。 

习题 5.57 给 出 一 个 有 效 的 算法 ， 该 算法 以 表示 一 棵 树 的 一 组 边 作为 输入 ， 并 且 产 生 该 树 
的 二 又 树 表 示 法 作为 输出 。 

习题 5.58 给 出 一 个 有 效 的 算法 ， 该 算法 以 两 棵 二 又 树 作 为 输入 ， 并 且 确 定 被 当 作 无 序 树 
时 它们 是 否 不 同 。 

习题 5.59 [Aho, Hopcroft 和 Ullman] 给 出 一 个 有 效 的 算法 ， 该 算法 以 两 个 括号 系统 作为 输 
入 ， 并 确定 它们 是 否 表 示 相 同 的 有 根 树 。 
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有 根 无 序 树 的 计数 。 令 Z 为 具有 相关 OGF 


的 所 有 OCF) 有 根 树 的 集合 ,其 中 Us 为 具有 N 个 结 点 的 有 根 树 的 棵 数 。 由 于 每 棵 有 根 树 包含 
一 个 根 和 有 根 树 的 一 个 多 重 集 ， 因 此 我 们 可 以 用 两 种 方式 把 这 个 生成 函数 表示 成 无 穷 乘积 : 


U(z) = Je- = q [0-0 
第 一 个 乘积 是 与 符号 方法 相关 的 “多 重 集 ”结构 的 简单 应 用 (见习 题 3.62): HFE tu, 
项 (1 - 2) -考虑 到 该 集中 zx 发 生 任 意 次 数 的 可 能 。 第 二 个 乘积 通过 将 对 应 具有 N 个 结 点 的 那些 
树 的 项 分 组 而 得 到 。 
定理 5.11 (有 根 无 序 树 的 计数 ) MAAR AAP TH HOGER A BHA 
VO- repu FU) + ZU) + 
渐 近 地 有 
Uy =[z*]U(z)~ ca” / N°”? 
其 中 c = 0.4399237 和 @Q = 2.9557649, 
证 明 继续 上 面 的 讨论 ， 两 边 取 对 数 : 
In ; Due In(i- z”) 
= Safe eget eget age en) 
= Ue) + SU) + UE) + LUE) + 
定理 所 述 的 函数 方程 由 两 边 再 取 指 数 而 得 到 。 
渐 近 分 析 超 出 了 本 书 的 范围 ， 它 依赖 于 有 关 我 们 在 第 4 章 介绍 的 直接 生成 函数 渐进 性 的 复 
分 析 方 法 。 细 节 可 以 在 [13]、[18] 和 [27] 中 找到 。 E 


这 个 结果 告诉 我 们 几 个 有 趣 的 事实 。 首 先 ，OGF 不 容许 分 析 的 初等 函数 的 显 式 形式 ， 可 
是 它 被 该 函数 方程 完全 确定 。 事 实 上 ， 同 样 的 推理 指出 ， 高 < 的 树 的 OGF 满 足 


on UME) zepo 30) + UME ) + 


不 仅 如 此 ， 当 h 一 w 时 还 有 UH 一 U(z) ， 而 且 两 个 级 数 到 hh + 1 项 是 一 致 的 。 这 提供 了 一 种 
计算 任意 个 初始 值 的 方法 : 


U(z)=z +z? +225 +4z° +9z° +20z° +4827 +115z° + 2862" +… 


还 要 注意 的 是 ， 尽 管 OGF 不 容许 闭 的 形式 ， 但 是 精确 的 渐 近 分 析 还 是 可 能 受到 影响 ,实际 上 ， 
这 个 分 析 是 所 谓 渐进 计数 Darboux-Polya 方 法 的 历史 起 源 ， 我 们 在 4.10 节 简要 介绍 过 它 。Polya 
在 1937 年 用 这 种 方法 实现 了 各 种 树 类 型 的 渐 近 分 析 ( 见 Polya 和 Read[27] ，Polya 经 典 论文 的 译 
文 )， 特 别 是 碳 氢 化 合 物 、 酒 精 等 化 学 异 构 体 的 模型 。 

习题 5.60 ”编写 一 个 程序 计算 所 有 小 于 你 的 机 器 中 可 以 表示 的 最 大 整数 的 [jw 的 值 ， 使 用 
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课文 中 提出 的 方法 。 使 用 该 方法 估计 对 于 大 的 N 需 要 多 少 次 (无 限 精度 ) 算术 运算 ? 
习题 5.61 [Harary-Palmer] 证 明 


NU yi = p3 (ru, 2 Tun 
1<FeN k < <N 


并 推出 : Unf BYLOWN) 次 算术 运算 确定 。( 提 示 : 对 函数 方程 微分 。) 

习题 5.62 给 出 一 个 多 项 式 时 间 算 法 以 生成 一 棵 大 小 为 N 的 随机 有 根 树 。 

自由 树 的 计数 。 若 不 确定 根 ， 那 么 组 合 论证 多 少 有 些 复杂 ， 虽 然 这 至 少 自 1889 年 就 已 经 
知道 ( 见 Harary 和 Palmer[18])。 渐 近 估 计 可 以 通过 生成 函数 论证 ， 使 用 刚刚 得 到 的 有 根 树 的 
渐 近 公式 得 出 。 我 们 把 细节 留 作 习 题 。 

习题 5.63 证 明 : NM 个 结 点 的 有 根 树 的 数目 以 N 个 结 点 的 自由 树 的 数目 为 下 界 ， 并 以 N 个 
结 点 的 自由 树 的 数目 的 N 倍 为 上 界 。( 因 此 ， 这 两 个 量 增长 的 指数 阶 是 相同 的 。) 

习题 5.64 令 F(z) 为 自由 树 的 OGF。 证 明 


F(z) = U(2) -ZUG + iuo) 


习题 5.65 “导出 表 5-4 中 给 出 的 自由 树 的 渐 近 公式 ， 使 用 前 面 的 习题 以 及 定理 5.11 中 关于 
(无 序 ) 有 根 树 给 出 的 公式 。 


5.13 标号 树 


上 面 的 计数 结果 假设 树 中 的 结 点 是 不 可 区 分 的 。 相 反 ， 如 果 我 们 假设 结 点 有 不 同 的 标识 ， 
那么 将 存在 更 多 的 方法 使 它们 构成 树 。 例 如 ， 当 把 不 同 的 结 点 用 作 根 的 时 候 就 得 到 不 同 的 树 。 
当 我 们 考虑 子 树 的 阶 以 及 指定 根 的 时 候 ,“ 不 同 ” 的 树 的 数目 将 增加 。 我 们 把 “标号 ” 当 作 区 
分 结 点 的 组 合 学 装置 。 当 然 ， 这 和 二 又 查找 树 中 的 关键 字 毫 无 关系 ， 它 们 是 与 结 点 相关 的 应 
用 数据 。 

















图 5-18 具有 3 个 结 点 的 标号 树 (有 序 的 、 无 序 的 、 无 根 的 ) 


不 同类 型 的 标号 树 在 图 5-18 中 解释 ， 它 们 与 图 5-17 相 对 应 。 所 有 的 树 都 是 不 同 的 有 根 、 有 
序 和 标号 树 ; 那些 在 阴影 矩形 中 的 树 作为 无 序 标号 树 是 同 构 的 ， 而 那些 在 大 托 形 中 的 树 作为 
无 根 、 无 序 标号 树 也 是 同 构 的 。 像 往常 一 样 ， 我 们 的 兴趣 是 想 知道 我 们 考虑 过 的 每 种 类 型 中 
存在 多 少 标号 树 。 表 5-5 给 出 一 些小 的 值 以 及 对 于 各 种 标号 树 计数 的 渐 近 估计 。 表 5-4 中 的 第 2 
列 (N=3) 对 应 图 5-18 中 的 树 。 





表 5-5 标号 树 的 计数 





2 3 4 5 6 7 N 
有 序 树 2 12 120 1680 46 656 665 280 a 
有 根 树 2 9 64 625 7976 117 649 NN-! 
自由 树 1 3 16 125 1296 16 807 N*-? 





正如 第 3 章 所 讨论 的 ，EGF 是 处 理 标 号 树 计数 的 合适 工具 ， 这 不 仅 因 为 存在 多 得 多 的 可 能 
E, 而且 还 因为 我 们 对 标号 结构 使 用 的 基本 组 合 学 处 理 方法 通过 EGF 很 自然 地 被 理解 。 

习题 5.66 ”4 个 结 点 的 哪 种 树 具 有 最 多 的 不 同 标号 方法 ? 对 于 5、6 以 及 更 多 结 点 回答 这 个 
问题 ， 能 回答 到 多 少 个 结 点 就 回答 到 多 少 。 

对 有 序 标号 树 的 计数 。 令 /为 具有 EGF 


L 7 zu L z“ 
OY Am 
的 有 序 标号 (AR) 树 的 集合 ， 其 中 心 为 具有 N 个 结 点 的 树 的 数目 。 有 序 标号 森林 或 者 为 空 ， 
或 者 为 有 序 标号 树 的 无 序 序列 ， 因 此 由 符号 方法 我 们 有 
L(z) = z(1 + L(z) + Lz) + LZY ++ L(z) +) 
__ 2 
1-L(z) 


这 实质 上 和 上 面 对 有 序 GERS) 树 所 使 用 的 是 相同 的 论证 ， 但 是 现在 我 们 对 标号 对 象 用 
EGF (定理 3.8) 来 计数 ， 此 前 我 们 对 非 标号 对 象 一 直 在 使 用 OGF (定理 37)。 因 此 


1- vl-4z 
2 





L({z)= 





而 具有 N 个 结 点 的 有 序 标号 有 根 树 的 数目 由 





N 1(2N-2\ (QN-2)! 
= NI 一 = 
Nile Az) me vt} (N-D)! 


给 出 。 

解释 这 个 结果 的 另外 方式 是 通过 组 合 对 应 : 非 标 号 树 由 先 序 遍历 确定 ，N! 种 排列 中 的 任 
一 排列 均 可 与 先 序 遍历 一 起 使 用 ， 对 具有 N 个 结 点 的 有 序 树 指 定 标号 ， 因 此 标号 树 的 数目 正 是 
非 标号 树 数目 的 N! 倍 。 显 然 这 种 论证 是 一 般 的 。 对 于 有 序 树 ， 标 号 和 非 标号 是 紧密 相关 的 ， 
而 他 们 的 计数 仅 差 一 个 因子 Ni。 

无 序 标号 树 的 计数 。 无 序 (AM) 标号 树 也 叫做 Cayley 树 ， 因 为 它们 在 19 世 纪 由 人 A. 
Cayley 做 过 计数 。 令 C 是 与 EGF | 


z“ z“ 
Co" Bick” A 
相关 的 所 有 Cayley 树 的 集合 ,其 中 C 为 具有 N 个 结 点 的 Cayley 树 的 数目 。Cayley 森 林 或 者 为 空 ， 
或 者 是 k 棵 具有 不 同 标记 的 Cayley 树 的 集合 。 因 此 ， 由 符号 方法 得 到 


2 3 k 
co 1+ C00) Eg OO gn) -ae 
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这 只 在 一 点 上 不 同 于 上 面 的 论证 : 当 序 不 重要 时 ，(C(z)》 将 每 一 森林 计数 k! 次 ， 因 此 我 们 用 kK! 
除 之 。 
定理 5.12 (无 序 标号 树 的 计数 ) 对 无 序 标号 树 计 数 的 OGF 满 足 函 数 方程 
C(z) = ze 


大 小 为 N 的 这 种 树 的 数目 为 
Cy = Nifzv]C(z) = NNT 


而 这 种 树 的 无 序 太 森林 的 数目 为 


tk] L NIN (C(z))* “(Fo N-k 
Cw SMi k k-11)” 


证 明 ”该 函数 方程 可 以 由 拉 格 朗 日 反 演 ( 见 3.10 节 ) 显 式 解 出 ， 由 此 立即 产生 定理 所 述 
结果 。 a 
从 组 合 学 上 看 ， 对 于 无 序 标号 树 ，N 结 点 有 根 树 的 数目 显然 就 是 无 根 树 的 N 倍 : 每 一 棵 无 根 
[E85| 树 恰好 对 应 N 棵 有 根 树 ， 只 要 把 每 个 结 点 当 作 根 即 可 看 出 。 因 此 ， 标 号 自由 树 的 数目 为 N”-?。 
对 于 非 标号 树 和 标号 树 的 计数 生成 函数 在 表 5-6 中 给 出 ， 以 供 参考 。 表 5-5 给 出 了 标号 树 的 


系数 的 值 。 
表 5-6 树 计数 生成 函数 
非 标 号 (OGF) 标号 (EGF) 
有 序 树 oo- Ld- hs 
有 根 树 U(z)= zep 之 uid C(z) = ze“ 
自由 树 U(z)- U(z) 12+ U(2?)/2 C(z)- C} /2 


385.67 找 出 用 具有 小 于 N 的 正 整数 的 (N 1) 元 组 表示 标号 有 根 树 的 方法 。 就 是 说 ， 存 
在 NY - ! 个 这 样 的 N 元 组 和 辐 样 数 目的 这 种 树 : 找 出 它们 之 间 的 一 一 对 应 。( 提 示 : 把 结 点 和 它 
们 的 父 结 点 联系 起 来 。) 

习题 5.68 证 明 ， 对 标号 自由 树 计数 的 EGF 等 于 C(z) - C(z)/2。 


5.14 其 他 类 型 的 树 


把 各 种 局 部 和 整体 的 限制 施加 到 树 上 ， 例 如 满足 特定 应 用 的 需求 或 者 试图 排除 退化 的 情 
形 ， 常 常 是 很 方便 的 。 从 组 合 学 的 观点 看 ， 任 何 限制 都 对 应 一 种 新 种 类 的 树 ， 需 要 求解 一 组 
新 的 问题 以 对 树 进行 计数 并 了 解 它们 的 统计 性 质 。 在 这 一 节 ， 我 们 列举 许多 著名 的 和 广泛 使 
用 的 特殊 种 类 的 树 ， 以 供 参 考 。 例 子 在 图 5-19 中 画 出 ， 而 一 些 定义 则 在 下 面 的 讨论 中 给 出 。 
(注意 记号 ; 在 这 一 节 ， 我 们 使 用 7(z) 表 示 CatalanOGF 的 各 种 推广 的 OGF， 以 强调 分 析 中 的 相 
似 性 ， 而 使 读者 解脱 过 多 的 符号 负担 。) 

定义 ”一 棵 -又 树 或 者 是 一 个 外 部 结 志 ， 或 者 是 连接 到 1 哥 子 树 的 有 序 序列 上 的 一 个 

内 部 结 点 ， 这 些 子 树 都 是 -又 树 。 


286 这 是 二 又 树 的 自然 的 推广 ， 当 我 们 在 第 3 章 考 虑 拉 格 朗 日 反 演 时 ， 二 叉 树 是 作为 一 个 例子 
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考虑 的 。 我 们 坚持 每 个 结 点 恰 有 ;个 分 支 。 这 些 树 通常 被 认为 是 有 序 的 一 一 这 对 应 一 种 计算 机 
表示 法 。 在 这 种 表示 法 中 ， 每 一 个 结 点 保留 ! 个 链 以 指向 该 结 点 的 分 支 。 在 某 些 应 用 中 ， 关 键 
字 可 以 和 内 部 结 点 相 联系 ; 在 另外 一 些 情 形 下 内 部 结 点 可 能 对 应 ! - 1 个 关键 字 的 序列 ; 在 其 
他 一 些 情形 下 ， 数 据 可 以 与 外 部 结 点 相 结合 。 这 种 类 型 的 一 种 重要 的 树 是 四 又 树 ， 此 时 关于 
几何 数据 的 信息 是 通过 将 一 个 区 域 分 成 四 个 象限 来 组 织 的 ， 过 程 递 归 地 进行 。 


3- 受 限 树 4- 受 限 树 


AZA 


红 - 黑 树 AVL 树 


KAR KAI 


图 5-19 各 种 其 他 类 型 的 树 的 例子 


定理 5.13 (1 又 树 的 计数 ) 对 ! 又 树 (通过 外 部 结 点 ) 进行 计数 的 OGF 满 足 函 数 方程 
T(z) =z+(T(z))' 
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具有 N 个 内 部 结 点 和 (1 - DN + 1 个 外 部 结 点 的 [~ 又 树 的 数目 为 


1 /NY 
aln) ~ela)" /IN™ 


tra =r- 1) 'he,-= 1O- 。 
证 明 ”我 们 以 与 在 3.11 节 对 + = 3 的 情形 给 出 的 解 类 似 的 方式 使 用 拉 格 朗 日 反 演 。 根 据 符号 
方法 ， 具 有 由 外 部 结 点 度量 大 小 的 OGF 满 足 
T(z) = z + T(z)’ 
这 能 够 满足 拉 格 谓 日 反 演 ， 由 于 z = T(z) (1 - T(z)”)， 因 此 我 们 有 有 具有 2N + 1 个 外 部 结 点 (N 个 
内 部 结 点 ) 的 树 的 数目 的 表达 式 : 


1 
[2 Ta) = so aap 





N+1 (1— 
1 ooy 1 
“oneal Nam 
1 3N 
-awril w) 
它 等 价 于 在 3.11 池 中 给 出 的 表达 式 ， 将 其 推广 立即 得 到 所 述 结果 。 当 我 们 使 用 与 对 Catalan 数 
( 见 4.3 节 ) 相同 的 方法 时 ， 也 可 以 直接 得 出 渐 近 估计 。 E 


习题 5.69 求 出 具有 总 数 N 个 内 部 结 点 的 二 森林 的 数目 。 
习题 5.70 对 具有 N 个 内 部 结 点 的 :~ 又 树 的 数目 ， 导 出 定理 5.13 中 给 出 的 渐 近 估计 。 


定义 一 棵 二 - 受 限 树 是 一 个 包含 链接 到 ! 棵 或 更 少 的 半 受 限 树 的 结 点 〈 称 之 为 根 )。 


受 限 树 和 t- 叉 树 之 间 的 区 别 在 于 ， 不 是 每 一 个 内 部 结 点 都 必须 有 ! 个 链 。 这 在 计算 机 表示 
法 中 直接 产生 结论 : 对 于 寻 又 树 ， 我 们 还 要 为 所 有 内 部 结 点 均 保 留 ! 个 链 的 空间 ， 但 是 一 受 限 
树 使 用 标准 的 对 应 可 能 被 更 好 地 表示 为 二 叉 树 。 再 有 ， 我 们 通常 把 它们 看 作 是 有 序 的 ， 虽 然 
我 们 也 可 能 考虑 无 序 的 与 /或 无 根 的 :~ 受 限 树 。 在 浅 受 限 树 中 每 一 个 结 点 最 多 链接 到 : + 1 个 其 
他 的 结 点 ， 如 图 5-19 所 示 。 

t= 2 的 情形 对 应 所 谓 的 Motzkin 数 ， 对 于 这 种 数 我 们 可 以 通过 求解 二 次 方程 得 到 OGF M(z) 
的 一 个 显 式 表达 式 。 我 们 有 

M(z) = z(1 + M(z)+ M(z)’) 
从 而 
_ 1-z- 1-22-32" _ 1-z- (1+ z)(1-3z) 
2z 2z 

现在 ， 定 理 4.11 提 供 了 [zwjMt(z) 为 0(3%) 的 直接 证 明 ， 并 且 那 些 来 自 复 渐 近 分 析 的 方法 产生 更 精 
确 的 渐 近 估计 3" /3/4nxN， 。 实 际 上 ， 使 用 大 约 相同 的 工作 量 我 们 能 够 得 到 更 一 般 的 结果 。 

定理 5.14 (:- 受 限 树 的 计数 ) Su) =l tut totu, It SRY RMOGER 

Rb RH HE 


M(z) 


T(z) = 20(T(z)) 
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且 !~- 受 限 树 的 棵 树 为 
[2" T(z) = [u OU" ~ car /N° 


其 中 p 是 p) - pO' (p) = 0 的 最 小 正 根 ， 而 常数 和 ci 由 Q, = 8(p) 和 c, = 9(p)/2x0"(p) 
给 出 。 


证 明 ”定理 的 第 1 部 分 从 符号 法 和 拉 格 朗 日 反 演 直接 得 到 。 渐 近 结 果 需 要 奇 性 分 析 ， 用 到 
定理 4.12 的 一 个 拓展 〈 见 [13]) 。 

该 结果 从 Meir 和 Meoon 在 1978[25] 证 明 的 一 个 定理 推 得 ， 实 际 上 ， 它 对 一 大 类 形 如 1 + au + 
aw + … 的 多 项 式 B(w) 成 立 ， 其 中 需要 满足 约束 : 多 项 式 的 系数 是 正 的 ， 而 且 w 和 至 少 另 外 一 
个 系数 非 零 。 E 

HFA, t- SSA RATE E PF EPS: 


t C, a, 

2 0.4886025119 3.0 

3 0.2520904538 3.610718613 
con®? 4 0.1932828341 3.834437249 

5 0.1691882413 3.925387252 

6 0.1571440515 3.965092635 

œ 0.1410473965 4.0 


对 于 大 的 的 a, 值 接近 4， 也 许 它 是 所 期 望 的 ， 因 为 此 时 的 树 像 是 一 般 Catalan 树 。 

习题 5.71 ABSA +u ++ tu = - ut VWI - ORK RANSE AAT SR 
的 棵 数 的 和 式 。 

习题 5.72 写 出 一 个 程序 ， 给 定 :， 对 于 NN 的 所 有 使 得 其 :- 受 限 树 的 数目 小 于 你 的 计算 机 中 
最 大 可 表示 整数 的 值 ， 该 程序 将 计算 出 这 个 数目 。 

习题 5.73 求 出 “ 偶 ”!- 受 限 树 的 数目 ， 其 中 所 有 的 结 点 均 有 偶数 个 小 于 1 的 子 结 点 。 

高 - 受 限 树 。 其 他 一 些 类 型 的 树 涉及 对 高 的 限制 。 这 样 的 树 之 所 以 重要 ， 是 因为 它们 可 以 
用 作 二 叉 树 的 替代 对 象 ， 提 供 保证 O (log MARRE. Adelson- Vel'skii 和 Landis[1] 在 1960 
年 首先 指出 这 一 点 ， 从 此 这 样 一 些 树 就 被 广泛 地 研究 (例如 ， 见 Bayer 和 McCreght[3] 或 Guibas 
和 Sedgewick[17])。 平 衡 树 具有 重要 的 实际 意义 ， 因 为 它们 将 二 又 树 查找 的 简单 性 和 灵活 性 与 
具有 良好 的 最 坏 情 形 性 能 的 插入 操作 结合 了 起 来 。 它 们 常常 用 于 大 的 数据 库 应 用 ， 因 此 其 性 
能 的 渐 近 结果 有 具有 直接 的 实际 意义 。 


定义 一 标高 为 0 或 -1 的 AVL 树 是 一 个 外 部 结 点 ; 一 棵 高 i> 0 的 AVL 树 是 链接 到 一 标 
左 子 树 和 一 棵 右 子 树 的 内 部 结 点 ， 两 棵 子 树 的 高 为 - Rh- 2. 


定义 ”一 棵 高 为 0 的 B- 树 是 一 个 外 部 结 点 ; 一 棵 M 阶 且 高 记 > 0 的 B- 树 是 一 个 被 连接 
到 一 系列 在 [M/2] 和 MM 哥 之 间 的 M 阶 和 高 为 h 一 1 的 B 树 的 内 部 结 点 。 


3 阶 和 4 阶 B- 树 通常 分 别 叫 做 2-3 树 和 2-3-4 树 。 有 几 种 方法 是 使 用 这 些 以 及 类 似 的 结构 
设计 出 来 的 ， 称 为 平衡 树 算法 ， 其 一 般 想法 是 将 排列 映射 到 保证 没有 长 路 径 的 树 结构 。 包 括 
各 种 类 型 之 间 关 系 等 更 多 的 细节 由 Guibas 和 Sedgewick[17] 给 出 ， 他 们 还 指出 许多 这 种 结构 
(包括 AVL 树 和 B- 树 ) 可 以 映射 到 具有 标记 边 的 二 又 树 ， 如 图 5-19 所 示 。 

习题 5.74 ”不 用 详细 求解 计数 问题 。 对 于 大 的 N， 试 将 下 列 各 类 树 以 它们 基数 的 递增 顺序 





排列 : 3- 叉 树 、3- 受 限 树 、2-3 树 、 以 及 AVL 树 。 

习题 5.75 ”建立 一 个 表 ， 使 该 表 能 够 给 出 少 于 15 个 结 点 的 AVL 树 和 2-3 树 的 数目 ， 注 意 ， 
当 作为 无 序 树 考 虑 的 时 候 这 些 结 点 是 不 同 的 。 

平衡 树 结构 阐述 了 在 应 用 中 出 现 的 树 结构 的 变 体 。 这 些 结构 导致 大 量 有 趣 的 解析 问题 ， 
并 且 它 们 分 布 在 那些 纯 组 合 结构 和 部 分 “算法 的 ”结构 之 间 一 系列 不 同 程度 的 位 置 之 上 。 没 
有 哪 种 二 又 树 结构 为 了 统计 诸如 路 径 长 这 样 的 量 在 随机 插入 下 被 精确 地 进行 过 分 析 ， 不 管 它 
们 有 多 重要 。 对 它们 进行 计数 甚至 变 成 一 种 挑战 (例如 ， 见 Aho 和 Sloane[2] 或 Flajolet 和 
Odlyzko[11]). 

对 于 这 些 类 型 结构 中 的 每 一 种 ， 我 们 有 兴趣 知道 每 种 大 小 存在 多 少 本 质 上 不 同 的 结构 ， 
以 及 各 种 重要 参数 的 统计 。 对 于 某 些 结构 ， 研 究 对 它们 计数 的 函数 方程 式 是 相对 简单 的 ， 因 
为 它们 是 递归 地 定义 的 。( 有 些 平衡 树 结构 甚至 不 能 轻易 地 被 递归 定义 和 分 析 ， 但 是 却 需要 用 
将 排列 映射 到 这 些 结构 的 算法 来 定义 。) 如 同 树 的 高 一 样 ， 函 数 方程 是 唯一 的 起 点 ， 而 对 这 些 
结构 的 进一步 分 析 事 实 上 是 相当 困难 的 。 对 于 我 们 已 经 讨论 过 的 有 些 类 型 ， 生 成 函数 的 函数 
方程 在 表 5-7 中 给 出 。 

习题 5.76 ”证明 表 5-7 中 给 出 的 AVL 树 和 2-3 树 的 生成 函数 的 函数 方程 。 


表 5-7 其 他 类 型 的 树 的 生成 函数 
树 类 型 





(大 小 度量 ) 生成 函数 的 函数 方程 
3 又 树 T(z) =z+T(zy 
(外 部 结 点 ) 
x 又 树 T(z) =1+ 2T(2)’ 
(内 部 结 点 ) 
3- 受 限 树 T(z) = (1+ T+T? +T) 
( 结 点 ) 
1 h<O 
AAW AVLE Aweht fo 
(AA) ZA, (2) +22A,(z)A,9(2) h>0 
高 为 的 2-3 树 z h=0 


B,(z) = | 


(外 部 结 点 ) B, (2° +z) h>0 





更 重要 的 是 ， 就 像 对 (均匀 分 布 的 ) 二 又 树 和 二 又 查找 树 (由 算法 从 随机 排列 构造 时 形 
成 分 布 的 二 叉 树 ) 进行 的 分 析 那样 ， 我 们 常常 需要 知道 对 各 种 类 型 的 树 的 统计 信息 ， 它 是 按 
照 将 某 些 其 他 的 组 合 学 对 象 变换 成 树 结构 的 算法 所 引起 的 分 布 而 得 到 的 ， 这 将 导致 更 多 的 解 
析 问 题 。 就 是 说 ， 我 们 已 经 定义 的 几 种 基本 树 结构 适合 许多 的 算法 。 我 们 使 用 术语 二 又 查找 
树 把 组 合 学 对 象 (ILR) 与 将 排列 映射 到 它 的 算法 区 分 开 ; 平衡 树 和 其 他 一 些 算法 需要 使 


”用 类 似 的 方式 区 分 。 


实际 上 ，AVL 树 、B8- 树 以 及 其 他 类 型 的 查找 树 ， 当 从 随机 排列 构造 获得 分 布 时 具有 根本 的 


| 意义 . “每 棵 树 等 可 能 的 ”组 合 学 对 象 之 所 以 一 直 被 研究 ， 不 仅 因 为 相关 的 问题 更 适合 组 合 学 分 


析 ， 而 且 还 因为 对 它们 的 性 质 的 认识 可 能 会 给 出 求解 那些 当 作为 数据 结构 进行 分 析 时 发 生 的 问题 
的 领悟 。 即 使 这 样 ， 仅 对 平衡 树 结构 计数 的 基本 问题 还 是 相当 的 困难 (例如 ， 见 [26])。 没 有 相关 
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的 算法 在 随机 排列 模型 下 被 分 析 ， 而 平衡 树 算法 的 平均 情形 分 析 则 是 算法 分 析 中 的 难题 之 一 。 

图 5-20 给 出 这 种 情形 的 复杂 性 的 某 种 提示 。 它 指出 随机 AVL 树 中 子 树 大 小 的 分 布 (所 有 
的 树 都 是 等 可 能 的 ) 并 可 与 图 5-10， 即 对 应 Catalan 树 的 图 进行 比较 。 对 应 BST 的 图 是 一 系列 
的 直线 ， 高 为 IN。 对 任意 树 的 大 小 N， 在 Catalan 树 关于 子 树 具 有 固定 结 点 数 有 一 个 渐 近 常数 
概率 的 情况 下 ，AVL 树 的 平衡 条 件 意 味 着 对 于 大 的 N 不 能 出 现 小 的 子 树 。 实 际 上 ， 对 于 大 的 N， 
我 们 可 以 期 望 树 在 子 树 的 大 小 聚集 在 中 间 附 近 的 意义 下 是 “平衡 ”的 。 对 某 些 NM 确 实 就 是 这 种 
情况 ， 而 且 对 于 其 他 某 些 N 也 是 成 立 的 ， 在 分 布 中 存在 两 个 峰 ， 这 意味 着 大 部 分 的 树 在 一 边 或 
另 一 边 具有 明显 少 于 一 半 的 结 点 。 事 实 上 ， 分 布展 示 一 种 摆动 的 特性 ， 大 致 介 于 这 两 个 极 值 之 
间 。 描 述 这 种 情形 的 解析 表达 式 必 须 考 虑 这 种 摆动 ， 因 此 不 像 我 们 想 要 的 那么 简练 。 据 推测 ， 
在 搜索 应 用 中 ， 当 从 排列 构建 平衡 树 时 ， 也 涉及 类 似 的 效果 ， 不 过 这 尚未 被 证 明 。 





图 5-20 AVIL 分 布 〈 随 机 AVL 树 中 子 树 的 大 小 ) 
(伸缩 并 平移 成 分 离 的 曲线 ) 
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在 我 们 考虑 的 算法 中 树 作为 显 式 的 结构 或 者 作为 递归 计算 的 模型 是 普遍 遇 到 的 。 大 部 分 
关于 最 重要 算法 性 质 的 知识 都 可 以 追溯 到 树 的 性 质 。 

在 后 面 各 章 我 们 将 会 遇 到 其 他 类 型 的 树 ， 不 过 ， 它 们 都 享有 一 个 内 在 的 递归 性 质 ， 该 性 
质 像 上 面 那样 使 用 生成 函数 能 够 使 它们 的 分 析 更 自然 ， 这 种 递归 结构 直接 导致 产生 生成 函数 
的 闲 型 表达 式 或 递归 公式 的 方程 。 分 析 的 第 2 部 分 抽取 所 要 的 系数 ， 这 对 于 某 些 类 型 的 树 需要 
一 些 高 级 的 技巧 。 

通过 比较 树 路 径 长 和 树 高 而 展现 的 分 析 上 的 差异 是 本 质 性 的 差异 。 一 般 地 ， 我 们 可 以 递 
归 地 描述 组 合 参数 ， 但 是 ， 像 路 径 长 这 样 的 “可 加 ”参数 要 比 像 高 这 样 的 “ 非 可 加 参数 ”处 
理 起 来 容易 得 多 ， 因 为 对 应 组 合 结构 的 生成 函数 结构 可 以 在 前 一 种 情形 下 直接 得 到 。 

我 们 在 本 章 的 第 一 个 论题 一 直 是 展示 作为 组 合 对 象 的 树 的 广泛 的 分 析 历 史 。 近 年 来 发 现 
一 些 一 般 的 方法 ， 这 些 方法 有 助 于 统一 某 些 经 典 的 结果 ， 并 使 得 认 知 任意 复杂 的 新 的 树 结构 
的 特征 成 为 可 能 。 我 们 详细 讨论 它 并 给 出 文献 [13] 中 的 一 些 例 子 。 当 然 许 多 重要 的 问题 仍然 有 
待 解 决 。 例 如 ， 关 于 树 参 数 最 基本 问题 之 一 的 树 高 的 一 些 精确 结果 只 是 最 近 才 得 到 。 

除了 经 典 组 合 学 和 算法 分 析 中 的 特殊 应 用 之 外 ， 我 们 还 尽力 指出 算法 应 用 如 何 导致 大 量 
新 的 数学 问题 ， 这 些 问 题 本 身 具有 有 趣 和 复杂 的 结构 。 二 又 查 找 树 算法 是 许多 问题 的 原型 ， 
对 王 这 些 问 题 我 们 知道 如 何 求解 : 算法 把 某 个 输入 组 合 对 象 〈 排 列 ， 在 二 又 查找 树 的 情形 ) 
变换 成 某 种 形式 的 树 。 此 时 ， 我 们 的 兴趣 在 于 分 析 这 些 树 的 组 合 性 质 ， 但 分 析 不 是 在 统一 的 
模型 下 ， 而 是 在 由 变换 得 到 的 分 布下 进行 。 认 识 所 产生 的 组 合 结构 的 详细 性 质 以 及 研究 这 些 
变换 的 效果 是 我 们 处 理 算法 分 析 的 基础 
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第 6 章 HH J 


组 合算 法 通常 只 处 理 N 个 元 素 的 线性 数组 的 相对 顺序 ， 因 此 我 们 可 以 把 这 些 算法 看 成 是 按 
照 某 种 顺序 对 数 1 到 N 的 操作 。 这 样 的 顺序 安排 叫做 排列 一 一 具有 大 量 有 趣 性 质 的 常见 组 合 对 
象 。 在 第 1 章 中 ， 我 们 首次 遇 到 了 排列 问题 ， 并 利用 随机 排列 作为 输入 模型 ， 对 两 个 重要 的 基 
于 比较 的 排序 算法 的 分 析 进 行 了 讨论 。 在 本 章 ， 我 们 将 全 面 考 查 排 列 的 组 合 性 质 ， 指 出 它们 
是 如 何以 一 种 自然 的 方式 与 基本 排序 算法 相 联 系 的 ， 并 利用 概率 函数 、 累 积 函 数 和 二 元 生成 
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我 们 将 涉及 诸如 插入 排序 、 选择 排序 和 冒 泡 排序 等 基本 排序 算法 的 分 析 ， 并 将 讨论 大 量 
在 实践 中 极为 重要 的 其 他 算法 ， 如 Shell 排 序 算法 、 优 先 队 列 算法 以 及 重 排 算法 等 。 我 们 也 许 
要 涉及 这 些 算法 与 排列 的 基本 性 质 之 闻 的 对 应 关系 ， 但 我 们 将 强调 基本 组 合 结构 在 算法 分 析 
中 的 重要 性 。 

我 们 将 通过 定义 排列 的 几 个 最 重要 的 性 质 、 考 查 几 个 例子 、 以 及 这 些 性 质 与 例子 之 间 的 
某 些 关 系 来 开始 本 章 内 容 。 既 要 考查 那些 在 基本 排序 算法 分 析 中 随时 出 现 的 性 质 ， 又 要 考查 
那些 具有 独立 组 合意 义 的 性 质 。 

接着 ,我 们 将 考虑 用 不 同 的 方式 来 表示 排列 ， 尤 其 是 由 逆序 、 圈 和 揭示 排列 及 其 逆 之 间 
关系 的 二 维 表 示 法 所 隐 含 的 表示 方式 。 这 种 表示 法 也 有 助 于 我 们 定义 排列 、 二 又 查 找 树 以 及 
“ 堆 序 树 ”之 间 明 确 的 关系 ， 并 将 对 排列 的 某 些 性 质 的 分 析 简 化 成 对 树 的 性 质 的 研究 。 

然后 ， 我 们 将 考虑 排列 的 计数 问题 ， 即 : 统计 满足 某 些 性 质 的 排列 数 。 这 种 问题 可 以 利 
用 生成 函数 (包括 关于 标号 对 象 的 符号 法 ) 以 一 种 直接 的 方式 来 解决 。 特 别 地 ， 我 们 将 比较 
详细 地 考查 与 排列 的 “ 圈 结 构 ” 有 关 的 性 质 。 

沿用 和 第 5 章 一 样 的 一 般 结 构 ， 我 们 接 下 来 要 对 参数 进行 分 析 。 对 树 而 言 ， 我 们 曾 考虑 过 
路 径 长 度 、 树 高 、 树 叶 的 数目 以 及 其 他 参数 。 对 排列 而 言 ， 我 们 将 考虑 诸如 游程 数 和 逆序 数 
等 性 质 ， 其 中 的 许多 性 质 都 很 容易 分 析 。 和 以 往 一 样 ， 在 所 有 排列 等 可 能 的 假定 下 ， 我 们 也 
将 关注 与 排列 性 质 有 关 的 各 种 方法 下 排列 的 期 望 “ 开 销 ” 。 期 望 开 销 有 时 可 以 通过 对 长 度 为 N、 
开销 为 的 排列 数 找到 一 个 明确 的 表达 式 来 计算 ， 不 过 我 们 强调 基于 生成 函数 的 便捷 方法 ， 如 
CGF 的 使 用 。 

本 文 我 们 将 对 两 个 基本 排序 算法 一 一 插入 排序 和 选择 排序 一 一 的 参数 以 及 它们 与 排列 的 两 
个 基本 性 质 一 一 逆序 数 和 左 向 右 最 小 值 一 一 的 关系 进行 分 析 。 我 们 将 表明 CGF 是 如 何 导 出 对 这 
些 算 法 进行 比较 直接 的 分 析 的 。 我 们 也 将 考虑 把 一 个 数组 排列 到 位 的 问题 以 及 该 问题 与 排列 
的 围 结构 之 间 的 关系 。 其 中 某 些 分 析 将 导出 有 关 第 3 章 中 特殊 数 的 常见 生成 函数 ， 例 如 ， 
Stirling 数 与 调和 数 的 生成 函数 。 

本 章 我 们 还 将 讨论 模拟 树 高 的 问题 ， 包 括 求 一 个 随机 排列 中 最 短 圈 和 最 长 圈 的 平均 长 度 
问题 。 至 于 树 高 ， 我 们 将 建立 关于 配置 了 “垂直 ”下 标的 生成 函数 的 函数 方程 ， 但 渐 近 估计 
已 经 利用 更 先进 的 工具 得 到 了 最 好 的 结果 。 

排列 性 质 的 研究 阅 明 了 在 算法 分 析 中 平 几 问题 和 难 问题 之 间 确 实 存在 着 一 个 令 人 满意 的 
分 界线 。 我 们 所 考虑 的 某 些 问题 可 以 通过 初等 论证 方法 很 容易 地 加 以 解决 ; 其 他 《类 似 的 ) 
问题 虽然 不 是 初等 的 ， 但 可 以 通过 我 们 一 直 都 在 关注 的 生成 函数 和 渐 近 方法 来 研究 ; 还 有 一 
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些 其 他 (仍然 是 类 似 的 ) 问题 则 需要 用 到 高 等 复 分 析 方法 或 概率 方法 来 研究 。 
6.1 排列 的 基本 性 质 


排列 可 以 用 许多 方法 来 表示 ， 最 直接 的 方法 就 是 对 整数 1 到 N 的 简单 重新 排列 ， 正 如 下 面 
的 例子 一样 : 
T 标 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
排列 9 14 4 1 12 2 10 13 5 6 11 3 8 15 7 


想像 排列 的 一 种 方式 就 是 我 们 可 以 把 排列 看 成 是 对 一 个 重 排 的 具体 规定 : “1 到 9、2 到 14、 
3 到 4” 等 等 。 显 然 ，N 个 元 素 具有 NI 个 不 同 的 排列 。 排 列 有 着 许多 基本 性 质 ， 这 些 性 质 不 仅 
从 组 合 学 观点 来 看 有 着 内 在 的 重要 意义 ， 而 且 它们 在 许多 重要 算法 的 研究 中 也 起 着 重要 的 作 
用 。 本 节 我 们 将 定义 这 些 性 质 并 给 出 一 些 基 本 结果 ; 我 们 将 在 以 后 各 节 中 讨论 这 些 结果 是 如 
何 导出 来 的 ， 并 把 它们 与 算法 分 析 联 系 起 来 。 

我 们 将 研究 逆序 、 左 向 右 最 小 值 和 最 大 值 、 圈 、 上 升 、 游 程 、 降 落 、 峰 、 谷 以 及 排列 中 
的 递增 子 序列 ; 排列 的 逆 排 列 ; 以 及 叫做 对 合 与 错位 排列 的 特殊 类 型 的 排列 。 这 些 问 题 都 将 
通过 对 整数 1 到 N 的 一 个 排列 mipzp3…Pw 来 进行 解释 ， 在 下 面 的 定义 和 正文 中 ， 我 们 还 要 引用 上 
面 的 样本 排列 。 


定义 ”一 个 逆序 是 i<j 且 p;>pj 的 一 个 数 对 。 如 果 gj 是 i<j 且 p;>pj 的 个 数 ， 则 称 q14，… 
dv 是 pip…Pnw 的 一 个 北 序 表 。 我 们 用 记号 alp) 来 表示 一 个 排列 p 中 递 序 的 个 数 ， 即 北 序 
表 中 各 项 的 和 。 


上 面 给 出 的 样本 排列 具有 49 个 逆序 ， 这 可 以 通过 在 它 的 逆序 表 中 填 入 元 素 而 得 以 证 实 。 

下 标 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 

排列 9 14 4 1 12 2 10 13 5 6 11 3 8 15 7 

逆序 表 0 0 2 3 1 4 2 1 5 5 3 9 6 0 8 

根据 定义 ， 一 个 排列 的 逆序 表 q1q9,…9qw 中 的 项 满足 ， 对 所 有 1 到 和 N 的 j， 有 0< qj<j。 正 如 我 
们 将 在 6.3 节 中 看 到 的 那样 、 从 满足 这 些 约束 的 任意 一 个 数 的 序列 中 可 以 构造 出 唯一 一 个 排列 。 
也 就 是 说 ， 在 长 度 为 N 的 逆序 表 和 NN 个 元 素 的 排列 之 间 存 在 着 一 一 对 应 关系 。 这 种 对 应 将 在 本 
章 后 面 基 本 排序 算法 的 分 析 中 加 以 利用 ， 如 插入 排序 和 冒 泡 排序 。 


定义 左 向 右 最 大 值 是 一 个 下 标 i， 它 满足 对 所 有 的 j<i， 都 有 pj;<pi。 我 们 用 符号 AMp) 
来 表示 排列 p 中 左 向 右 最 大 值 的 个 数 。 


所 有 排列 中 第 一 个 元 素 都 是 一 个 左 向 右 最 大 值 ; 最 大 元 素 也 是 一 个 左 向 右 最 大 值 。 如 果 最 
大 元 素 是 第 一 个 元 素 ， 那 么 它 是 唯一 的 一 个 左 向 右 最 大 值 ; 否则 至 少 有 两 个 左 向 右 最 大 值 
(第 一 个 元 素 和 最 大 元 素 )。 一 般 说 来 ， 排 列 中 可 以 存在 多 达 N 个 左 向 右 最 大 值 《如 在 排列 12… 
N 中 )。 在 上 面 给 出 的 样本 排列 中 ， 有 3 个 左 向 碳 最 大 值 ， 它 们 的 位 置 是 1、2 和 14。 注 意 : 每 个 
左 向 右 最 大 值 都 对 应 于 逆序 表 中 的 一 个 零 ( 其 左边 不 存在 更 大 的 元 素 )， 因 而 统计 排列 中 左 向 
右 最 大 值 的 个 数 就 是 统计 逆序 表 中 零 的 个 数 。 左 向 右 最 小 值 、 右 向 左 最 小 值 以 及 右 向 左 最 大 
值 的 定义 方法 是 类 似 的 。 在 概率 论 中 ， 左 向 右 最 大 值 也 叫 记 录 ， 这 是 因为 当 我 们 在 排列 中 从 
左 向 右 移动 时 ， 它 们 代表 我 们 遇 到 了 新 “记录 ”的 大 数值 。 

习题 6.1 解释 如 何 根据 逆序 表 计算 左 向 右 最 小 值 、 右 向 左 最 小 值 和 右 向 左 最 大 值 。 





# A 191 


定义 BAAT RA Aiii, 其 中 Pi = hy, Pi = is, “5 Di, = iy. MAAS GLI) 
来 表示 一 个 图 。 在 长 度 为 N 的 排列 中 ， 一 个 元 素 属 于 唯一 的 一 个 长 度 为 1 到 NN 的 图; 长 
度 为 N 的 排列 是 由 一 组 长 度 为 1 到 N 的 图 所 构成 的 。 错 位 排列 是 一 个 不 存在 转 长 为 1 的 
排列 。 


我 们 的 样本 排列 是 由 四 个 圈 所 构成 的 (其 中 的 一 个 长 度 为 1)， 因 而 它 不 是 一 个 错位 排列 。 
FR 1 2 3 4 5 6 7 8 9 10 1112 13 14 15 
排列 9 14 4 1 12 2 10 13 5 6 11 3 8 15 7 
@ (1 9 5 12 3 4)(2 14 15 7 10 6)(8 13)(11) 
圈 可 以 读 成 “1 到 9 到 5 到 12 到 3 到 4 到 1” 等 等 。 此 排列 中 最 长 的 圈 长 为 6 ( 它 有 两 个 这 样 的 
Bl); 最 短 的 圈 长 为 1 。 对 任何 长 度 为 的 圈 ， 有 tz 种 等 价 的 列 出 方式 ， 构 成 一 个 排列 的 圈 可 以 
按 任何 顺序 列 出 。 也 就 是 说 ， 作 为 组 合 对 象 ， 排 列 等 价 于 圈 的 集合 ， 这 一 点 我 们 曾 在 3.9 节 中 
如 果 在 每 个 圈 中 我 们 选择 首先 列 出 最 大 元 素 (图 头 (cycle leaders))、 并 按 圈 头 的 递增 顺 
序列 出 所 有 的 圈 ， 那 么 我 们 就 得 到 了 一 个 规范 型 ， 它 有 一 个 非常 有 趣 的 性 质 : 小 括号 不 是 必 302 
需 的 ， 因 为 在 规范 型 中 ， 每 个 左 向 右 最 大 值 对 应 于 一 个 新 的 图。 
(1 9 5 12 3 4)(2 14 15 7 10 6)(8 413) (11) 
规范 型 11 123 4 1 9 5 13 8 15 7 10 6 2 «14 
这 就 构成 了 一 个 组 合 证 明 : 对 随机 排列 而 言 ， 圈 和 左 向 右 最 大 值 具有 相同 的 分 布 ， 我 们 在 本 
章 也 将 分 析 性 地 验证 这 一 事实 。 在 组 合 学 中 ， 这 一 事实 叫做 “Forta 对 应 ”或 “基本 对 应 ”。 
习题 6.2 把 我 们 的 祥 本 排列 用 图 的 符号 写 出 时 ， 有 多 少 种 不 同 的 方式 ? 
习题 6.3 元 素 为 2n 的 排列 中 有 多 少 个 恰好 有 两 个 轿 ， 生 每 个 圈 的 长 度 为 1? 有 多 少 个 恰好 
Ando, HESBHKEA2? 
习题 6.4 在 n 个 元素 的 排列 中 ， 当 用 圈 来 表示 时 ， 哪 些 排列 具有 最 多 的 不 同 表 示 方 法 ? 


定义 ”排列 pjp…pw 的 送 排 列 是 排列 919.…4n 满 足 q,, = Po = i。 排 列 的 对 合 是 这 样 的 一 
个 排列 ， 其 送 排 列 就 是 它 自己 : Po =i. 


对 我 们 的 样本 排列 而 言 ，1 在 位 置 4、2 在 位 置 6、3 在 位 置 12、4 在 位 置 3， 等 等 。 





下 标 1 2 3 4 5 6 7 8 9 10 11 #12 #13 14 15 
排列 9 14 4 1 12 2 10 13 5 6 11 3 8 15 7 
逆 排 列 4 6 12 3 9 10 15 13 1 7 11 5 8 2 14 


由 定义 可 知 ， 每 个 排列 都 有 唯一 的 一 个 逆 排 列 ， 且 一 个 逆 排 列 的 逆 排 列 就 是 原来 的 排列 。 
下 面 的 例子 是 一 个 对 合 ， 其 圈 形 式 的 表示 方法 揭示 了 对 合 的 重要 性 质 。 
下 标 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
Wwe 9 2 12 4 7 10 #5 13 1 6 11 3 8 15 14 
Wo (1 9) (2) (3 12) (4) (5 7)(6 10) (8 .13) (11) (14 15) 
显然 ， 一 个 排列 是 一 个 对 合 ， 当 且 仅 当 其 所 有 图 的 长 度 是 1 或 2。 要 对 长 度 为 N 的 对 合 个 
数 确 定 出 一 个 准确 的 估计 ， 这 将 导致 一 个 有 趣 的 问题 ， 该 问题 前 述 了 我 们 在 本 书 中 将 要 考查 
的 大 部 分 工具 。 Bo3] 
定义 上 升 是 p;<pi,1 的 一 次 出 现 ， 降 落 是 p; .1>pi 的 一 次 出 现 。 游 程 是 排列 中 一 个 最 
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大 的 、 递 增 的 连续 子 序列 。 峰 是 Pi 1<p;>pi; 1 的 一 次 出 现 ， BRD; -1>pi<pi; 1 的 一 
次 出 现 。 双 升 是 p; -SPIP 1 的 一 次 出 现 ， 双 落 是 pi - 1>pi>pi+ 1 的 一 次 出 现 。 我 们 
用 符号 Ql(p) 来 表示 排列 p 中 上 升 的 个 数 。 


在 任何 一 个 排列 中 ， 上 升 数 与 降落 数 之 和 都 等 于 排列 的 长 度 减 1。 游 程 数 比 降落 数 多 1， 
因为 在 一 个 排列 中 ， 除 最 后 一 个 游程 外 ， 每 个 游程 都 必须 以 一 个 降落 结束 。 如 果 我 们 考虑 一 
个 排列 中 对 应 于 N ~ 1 个 相 邻 两 数 之 差 的 正 、 负 号 的 符号 表示 法 的 话 ， 上 述 事 实 以 及 其 他 事实 
都 是 明显 的 ; 降落 对 应 +， 上 升 对 应 -。 

排列 9 14 4 1 12 2 #10 13 5 6 11 3 8 15 7 
EH/I 二 十 十 - + - -= + - - + - = + 

此 表示 法 告诉 我 们 : 该 排列 中 有 8 个 上 升 和 6 个 降落 。 除 此 之 外 ， 正 号 标志 着 游程 的 结束 
(最 后 一 个 除外 ) ， 所 以 该 排列 有 7 个 游程 。 双 升 、 谷 、 峰 和 双 落 分 别 对 应 于 - 一 、+ 一 、 一 +、 
和 + + 的 出 现 。 所 以 该 排列 有 3 个 双 升 、5 个 谷 、5 个 峰 和 1 个 双 落 。 


定义 ”排列 中 的 一 个 递增 子 序列 是 下 标 站 , 站 的 一 个 递增 序列 ， 且 这 些 下 标 满足 
Pi SP ©U S Pio 
习惯 上 ， 空 子 序列 被 认为 是 “递增 的 。 因 此 ， 递 增 排列 1 2 3 …N 有 2* 个 递增 子 序列 ， 其 
中 每 一 个 对 应 于 下 标的 某 个 集合 ， 递 减 排列 WN N - 1 N - 2…1 只 有 N + 1 个 递增 子 序列 。 我 们 
可 以 用 类 似 于 逆序 的 方法 统计 一 个 排列 中 的 递增 子 序列 : 做 一 个 关于 s1s2…sw 的 表 ， 用 5 表示 
起 始 于 位 置 ; 欧 递 增 子 序列 的 个 数 。 我 们 的 样本 排列 中 有 9 个 起 始 于 位 置 1 的 递增 子 序 列 、2 个 
起 始 于 位 置 2 的 递增 子 序列 ， 等 等 。 
下 标 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
排列 9 14 4 1 12 2 10 13 5 6 il 3 8 15 7 
子 序列 表 9 2 33 72 4 34 5 2 8 7 2 5 2 1 1 


例如 ， 子 序列 表 中 的 第 五 项 对 应 4 个 递增 子 序 列 : 12, 12 13, 12 15, 和 12 13 15. # 
加 该 表 中 的 各 项 (加 上 一 个 空子 序列 )， 就 表明 了 我 们 的 样本 排列 中 递增 子 序列 的 个 数 是 188。 

习题 6.5 编写 一 个 程序 ， 在 多 项 式 时 间 内 计算 一 个 给 定 的 排列 中 递增 子 序列 的 个 数 。 

表 6-1 对 4 个 元 素 的 所 有 排列 列举 了 上 述 所 有 性 质 ， 表 6-2 对 9 个 元 素 的 几 个 随机 排列 给 出 了 
这 些 性 质 的 值 。 仔 细 检 查 表 6-1 和 表 6-2 就 会 揭示 出 排列 的 这 些 不 同性 质 的 特征 以 及 本 章 我 们 将 
要 证 明 的 这 些 特征 之 间 的 关系 。 例 如 ， 我 们 已 经 提 到 过 ， 左 向 右 最 大 值 个 数 的 分 布 与 圈 数 的 
分 布 是 相同 的 。 


表 6-1 4 个 元 素 所 有 排列 的 基本 性 质 





排列 子 序 列 逆序 数 。 左 - 右 最 大 值 E 最 大 图 游程 。 对 合 表 逆 排 列 
1234 15 0 4 4 1 1 0000 1234 
1243 13 1 3 3 2 2 0001 1243 
1324 12 1 3 3 2 2 0010 1324 
1342 9 2 3 2 3 2 0002 1423 
1423 9 2 2 2 3 2 0011 1342 
1432 7 3 2 3 3 3 0012 1432 
2134 11 1 3 2 3 2 0100 2134 
2143 2 2 2 2 3 0101 2143 
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( 续 ) 
排列 子 序列 逆序 数 。 左 - 右 最 大 值 ”图 最 大 图 游程 HER HEF 
2314 9 2 3 2 3 2 0020 3124 
2341 8 3 3 1 4 2 0003 4123 
2413 7 4 2 1 4 2 0013 3142 
2431 6 4 2 2 3 3 0013 4132 
3124 8 1 2 2 3 2 0010 2314 
3142 7 3 2 1 4 3 0002 2413 
3214 7 3 2 3 2 3 0120 3214 
3241 6 4 2 2 3 3 0003 4213 
3412 6 4 2 2 2 2 0022 3412 
3421 5 5 2 1 4 3 0023 4312 
4123 8 3 1 1 4 2 0111 2341 
4132 7 4 1 2 3 3 0112 2431 
4213 6 4 1 2 3 3 0122 3142 
4231 5 5 1 3 2 3 0113 4231 
4312 5 5 1 1 4 3 0122 3421 

. 4321 4 6 1 2 2 4 0123 4321 
表 6-2 ”9 个 元 素 的 几 个 随机 排列 的 基本 性 质 
排列 逆序 数 。” 左 ~ 右 最 大 值 BAB H 对 合 表 逆 排 列 
961534872 21 1 2 6 7 012233127 395642871 
412356798 4 5 5 3 4 011100001 234156798 
732586941 19 3 4 6 3 012102058 932846157 
236794815 15 5 2 3 7 000003174 812693475 
162783954 13 5 4 5 4 001003045 136982457 
259148736 16 3 2 4 4 000321253 418529763 





凭 直觉， 我 们 期 望 上 升 和 降落 是 等 可 能 的 ， 因 此 在 一 个 长 度 为 N 的 随机 排列 中 ， 上 升 和 降 
落 都 应 该 有 大 约 N/2 个 。 类 似 地 ， 对 每 个 元 素 而 言 ， 我 们 也 将 期 望 大 约 有 一 半 比 它 大 的 元 素 位 
于 其 左 方 ， 因 此 ， 逆 序数 应 该 大 约 是 > i/2, BM: 大 约 为 N/4。 我 们 将 看 到 如 何 准 确 地 量化 


这 些 量 ， 从 而 计算 出 这 些 量 的 其 他 的 矩 ， 并 用 类 似 的 技巧 来 研究 左 向 右 最 小 值 和 图 。 

当然 ， 如 果 要 寻 问 更 细节 性 的 问题 ， 那 将 要 导出 更 为 复杂 的 解析 问题 。 例 如 ， 对 合 在 排 
列 中 占 多 大 比例 ?错位 排列 占 多 大 比例 ”三 个 以 上 元 素 的 排列 中 有 多 少 个 排列 不 含 图? 少 于 
三 个 元 素 的 排列 中 有 多 少 个 不 含 图 ?逆序 表 中 最 大 元 素 的 平均 值 是 多 少 ? 一 个 排列 中 递增 子 
序列 的 个 数 是 多 少 ? 一 个 排列 中 最 长 圈 的 平均 长 度 是 多 少 ? 最 长 游程 的 平均 长 度 是 多 少 ? 这 
类 问题 将 出 现在 我 们 将 要 进行 的 某 些 特 定 算法 的 研究 中 ， 同 时 我 们 也 把 它们 列 在 了 组 合 学 文 
献 中 。 

本 章 我 们 将 回答 这 些 问 题 中 的 大 部 分 问题 。 表 6-3 归 纳 了 我 们 将 要 得 出 的 一 些 平均 情形 的 
结果 。 其 中 一 部 分 结果 的 分 析 是 相当 直接 的 ， 但 其 他 分 析 则 需要 更 加 先进 的 工具 ， 正 如 我 们 
将 要 看 到 的 , 当 使 用 生成 函数 推导 贯穿 于 本 章 内 容 的 这 些 结果 和 其 他 结果 时 , 我 们 还 将 在 某 种 
程度 上 考查 它们 与 排序 算法 之 间 的 关系 。 
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表 6-3 关于 排列 性 质 的 累积 总 数 及 平均 数 


2 3 4 5 6 7 准确 平均 。 渐 近 估计 
排列 2 6 24 120 720 5040 1 1 

逆序 1 9 72 600 5400 52920 NN - D/4 ~M/4 
左 ~ 右 最 大 值 3 11 50 274 1764 13068 Hy ~InN 
a 3 11 50 274 1764 13068 Hy ~InN 
上 升 6 36 48 300 2160 17640 (N - 1)/2 ~N/2 

N 
递增 子 序列 5 27 169 1217 7939 72871 >i al A) /k! OlT) 


6.2 排列 的 算法 


就 排列 的 本 质 而 言 ， 它 们 会 直接 或 间接 地 出 现在 各 种 各 样 算法 的 分 析 当 中 。 排 列 规定 了 
数据 对 象 排 列 顺序 的 方式 ， 而 许多 算法 需要 按照 某 种 规定 的 顺序 处 理 数 据 。 通 常 ， 一 个 复杂 
的 算法 往往 要 在 某 一 阶段 调用 一 个 排序 的 过 程 ， 且 排列 与 排序 算法 之 间 的 直接 关系 也 足以 激 
发 我 们 去 详细 地 研究 排列 的 性 质 。 我 们 还 将 考查 大 量 相关 的 例子 。 

排序 。 正 如 在 第 1 章 所 见 到 的 那样 ， 我 们 经 常 假定 对 一 个 排序 算法 的 输入 是 具有 不 同 关键 
字 的 一 系列 随机 顺序 的 记录 。 关 键 字 的 随机 顺序 特别 要 由 任何 一 个 能 把 关键 字 从 连续 分 布 中 
独立 抽取 出 来 的 过 程 来 产生 。 这 就 使 得 对 排序 算法 的 分 析 基 本 上 等 同 于 对 排列 性 质 的 分 析 。 
在 Knuth[10] 从 综合 范畴 开始 的 一 书 中 ， 包 含 了 有 关 这 一 课题 的 大 量 文献 (例如 ， 参 见 Gonnet 
and Baeza-Yatesf5] )。 适 用 于 不 同情 形 的 排序 算法 有 许 许多 多 ， 而 算法 分 析 在 我 们 理解 它们 的 
相对 性 能 方面 起 到 了 至 关 重要 作用 。 本 章 我 们 将 学 习 排列 的 几 个 最 基本 的 性 质 与 几 个 主要 的 
基本 排序 算法 之 间 的 直接 联系 。 

习题 6.6 ” 设 a,、a、o 是 独立 生成 的 0 到 1 之 间 的 “随机 ” 数 ， 并 把 它们 看 作 满足 连续 分 布 
F(x) = Pr{X<x} 的 随机 变量 X 的 值 。 证 明 事 件 a1<as<a3 的 概率 是 1/3!。 把 此 结论 推广 到 任意 顺 
序 的 模式 和 任意 多 个 关键 字 的 情况 。 

重 排 。 正 如 我 们 前 面 所 提 到 过 的 ， 想 像 排 列 的 一 种 方法 就 是 可 以 把 排列 看 成 是 对 一 个 重 
新 排列 所 做 的 具体 规定 ， 这 就 导致 了 排列 与 排序 行为 之 间 的 直接 联系 。 排 序 算法 常常 是 通过 
间接 地 引用 被 排序 的 数组 来 实现 的 ， 而 不 是 把 元 素 移 来 移 去 、 从 而 才 使 它们 有 序 ， 我 们 是 要 
计算 出 一 个 排列 ， 这 个 排列 能 把 元 素 排 成 顺序 。 实 际 上 ， 任 何 排序 算法 都 可 以 这 样 来 实现 : 
就 我 们 所 见 过 的 算法 而 言 ， 都 是 在 维护 一 个 存放 排列 的 “下 标 ” 数 组 P[L1] . . .PIN] 。 开 始 时 ， 
邻 p[i]=i， 然 后 我 们 修改 排序 代码 ， 对 任何 一 个 比较 运算 ， 我们 引用 a[p[i] 1 而 不 是 a[i]， 
而 在 做 任何 数据 移动 时 ， 我 们 引用 p 而 不 是 a。 这 些 改变 确保 在 执行 算法 的 任何 时 刻 ， 
a[p[1]]，a[lp[2]]，…， a[lp[N]] 与 原始 算法 中 的 af1]，a[2],…，a[N] 是 相同 的 。 

例如 ， 如 果 一 个 排序 算法 用 这 种 方式 把 样本 输入 文件 

下 标 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 

关键 字 29 41 #77 26 58 59 97 82 12 44 63 31 53 23 93 
排 成 递增 序列 ， 那 么 它 将 产生 如 下 排列 结果 

下 标 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 

排列 9 14 4 工 12 2 10 13 5 6 11 3 8 15 7 
解释 这 一 结果 的 一 种 方法 是 : 对 原始 输入 可 以 通过 首先 输出 第 九 个 元 素 (12)， 然 后 第 十 四 个 
元 素 (23 )， 然 后 第 四 个 元 素 (26 )， 然 后 第 一 个 元 素 (29 ) ， 等 等 而 以 递增 顺序 完成 输出 
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(或 访问 )。 在 此 例 中 ,注意 我 们 所 得 到 的 排列 是 代表 原始 关键 字 顺 序 的 那个 排列 的 逆 排 列 ， 
即 排列 : 


4 6 12 3 9 10 15 13 1 7 11 5 8 2 14 


也 就 是 说 ， 排 序 相当 于 求 一 个 排列 的 逆 排 列 。 

如 果 我 们 有 一 个 输出 数组 bf 1].. .bfN] ， 那 么 实际 完成 一 个 排序 的 程序 则 是 平凡 的 : 

for i:=1 to N do b[i]:=a[p[i]}] 

对 于 数据 移动 开销 太 高 的 排序 应 用 《〈 例 如， 记录 比 关键 字 大 得 多 时 )， 这 一 改变 将 非常 重 
要 。 如 果 没 有 空间 可 用 于 输出 数组 的 话 ， 那 么 重新 排列 使 之 “就 位 ”仍然 是 可 行 的 ， 我 们 将 
在 本 章 稍 后 给 出 一 个 这 样 的 算法 。 

有 趣 的 是 : 注意 排序 的 结果 当然 可 以 是 一 个 对 合 。 例 如 ， 排 列 


9 2 12 4 7 10 5 13 1 6 11 3 8 #15 14 


既 可 以 代表 输入 文件 的 原始 顺序 


58 23 77 29 44 #59 31 82 12 41 63 26 53 97 93 


也 可 以 代表 规定 如 何 重 排 文件 并 使 之 有 序 的 排列 。 就 是 说 ， 该 排列 可 以 用 两 种 方式 来 解释 : 
我 们 既 可 以 说 58 是 第 九 小 的 元 素 、23 是 第 二 小 的 元 素 、77 是 第 十 二 小 的 元 素 等 等 , 依 此 类 推 ， 
也 可 以 说 文件 中 第 九 个 元 素 (12) 是 最 小 的 、 第 二 个 元 素 (26) 是 第 二 小 的 、 第 十 二 个 元 素 
(29) 是 第 三 小 的 等 等 ， 依 此 类 推 。 
随机 化 。 在 不 知道 输入 顺序 是 不 是 随机 顺序 的 情况 下 ， 我 们 可 以 利用 程序 6.1 所 示 的 方法 
来 建立 一 个 随机 顺序 ， 然 后 再 对 数组 进行 排序 。 这 -- 随 机 化 技术 采取 一 个 能 在 给 定 范 围 内 生 
成 “随机 ”整数 的 过 程 (这样 的 程序 已 得 到 了 很 好 的 研究 ， 参 见 Knuth[9])。N! 个 输入 顺序 中 
的 每 一 个 都 等 可 能 地 出 现 : 第 i 次 循环 时 ，i 个 不 同 的 重 排 中 的 任何 一 个 都 可 能 发 生 ， 其 总 数 为 
2.3.4……N = N!。 正 如 在 第 1 章 中 所 提 到 过 的 ， 从 算法 分 析 的 观点 来 看 ， 用 这 种 方法 对 输入 顺 
序 的 随机 化 能 把 任何 一 个 排序 算法 变 成 一 个 “概率 算法 " ， 其 性 能 特征 可 由 我 们 所 研究 的 平均 
情形 的 结果 来 准确 描述 。 事 实 上， 这 是 最 早 的 概率 算法 之 一 ， 因 为 它 是 由 Hoare 于 1960 年 为 
Quicksort 算 法 所 提出 来 的 ( 见 第 1 章 )。 
程序 6.1 随机 排列 一 个 数组 
for i:=2 to N do 
begin 
t:=randominteger(1,i); 
v:=a[t]; a[t]:=a[i]; ali]:=v; 


end 


优先 队列 。 在 一 个 算法 检验 任何 一 个 输入 之 前 ， 并 不 总 是 必须 把 算法 的 输入 重新 排列 成 
有 序 的 顺序 。 另 一 个 被 广泛 使 用 的 方法 是 建立 一 个 数据 结构 ， 它 是 由 带 有 关键 字 的 记录 所 构 
成 的 ， 它 支持 两 种 操作 : 把 一 个 新 项 插入 到 数据 结构 中 和 删除 最 小 项 ， 即 从 数据 结构 中 提取 
具有 最 小 关键 字 的 记录 。 这 样 的 数据 结构 叫做 优先 队列 。 优 先 队 列 算法 和 排序 算法 是 紧密 联 
Al: 例如 ， 我 们 只 需 通 过 插入 所 有 记录 ， 然 后 再 把 它们 删除 的 办 法 ， 就 可 以 利用 任何 一 个 
优先 队列 算法 来 实现 排序 算法 。( 记 录 将 按 递增 的 顺序 输出 . ) 然而 优先 队列 算法 更 具有 一 般 
性 ， 它 们 之 所 以 能 够 得 到 广泛 的 应 用 ， 不 仅仅 因为 插入 和 删除 操作 可 以 混合 进行 ， 还 因为 它 
们 也 支持 其 他 几 种 操作 。 在 算法 分 析 的 研究 中 ， 完 善 的 优先 队列 算法 性 质 的 研究 是 最 重要 也 
是 最 具 挑战 性 的 领域 之 一 。 本 章 ， 我 们 将 探讨 一 个 重要 的 优先 队列 结构 〈 堆 序 树 ) 与 一 又 查 
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找 树 之 间 的 关系 ， 通 过 把 它们 都 与 排列 相 联系 ， 这 一 关系 将 变 得 -一目了然 。 
6.3 排列 的 表示 法 


尽管 把 排列 表示 成 数 1 到 N 的 重新 排列 通常 是 最 方便 的 方法 一 一 我 们 一 直 都 在 这 样 做 ， 然 
而 许多 其 他 的 排列 表示 法 却 常 常 更 为 恰当 。 我 们 将 看 到 ， 各 种 不 同 的 表示 法 可 以 展示 出 排列 
的 基本 性 质 之 间 的 关系 ， 可 以 揭示 关于 某 些 特定 算法 分 析 的 基本 性 质 。 由 于 N 个 元 素 有 NI! 个 不 
同 的 排列 ， 因 而 具有 NI! 个 不 同 组 合 对 象 的 任何 集合 都 可 能 用 来 表示 排列 ， 本 节 我 们 将 考查 几 
个 有 用 的 表示 法 。 
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图 6-1 排列 的 图 表示 法 

图 结构 。 把 一 个 排列 pip,…pw 看 成 是 一 个 把 鼎 射 到 p, 的 函数 ,将 立即 导出 一 个 图 的 表示 法 ， 
如 图 6-1 所 示 。 这 种 表示 法 的 好 处 在 于 它 使 圈 结 构 变 得 明显 了 。 此 外 ， 一 般 函 数 的 对 应 结构 具 
有 许多 有 趣 的 性 质 ， 我 们 将 在 第 8 章 中 研究 它们 。 l 

线性 表示 法 。 排 列 与 其 圈 结 构 表 示 法 的 规范 型 之 闻 的 基本 对 应 定义 了 排列 的 一 个 “表示 
法 ”: 正如 上 节 所 讨论 过 的 ， 我 们 可 以 通过 用 一 种 规范 型 的 线性 形式 写 出 排列 的 圈 来 表示 一 个 
排列 ， 这 种 表示 法 是 通过 先 识 别 每 个 圈 的 “图 头 ”( 最 大 元 素 )， 然 后 按 先 列 出 圈 头 的 顺序 写 
出 每 一 个 圈 ， 最 后 按 圈 头 递增 的 顺序 列 出 所 有 的 圈 的 方法 而 得 到 : 

排列 9 14 4 1 12 2 10 13 5 6 11 3 8 15 7 

图 的 形式 ”11 12 3-4 1 9 5 13 8 15 7 10 6 2 14 

习题 6.7 ”我 们 也 可 以 按照 先 列 出 圈 中 最 小 元 素 的 顺序 写 出 每 个 团 ， 再 按 这 些 最 小 元 素 递 
增 的 顺序 排列 所 有 的 园 。 用 这 种 表示 法 表示 上 述 例子 中 的 排列 。 

习题 6.8 编写 一 个 程序 ， 对 给 定 的 一 个 排列 ， 求 其 对 应 的 规范 型 的 圈 表 示 式 。 

习题 6.9 编写 一 个 程序 ， 对 给 定 的 一 个 规范 型 的 圈 表 示 式 ， 求 其 对 应 的 排列 。 

逆序 表 。 排 列 与 N 个 整数 qiq,…4n，0 < q;<i 的 表 列 之 间 的 一 对 一 的 关系 很 容易 建立 。 给 定 
一 个 排列 ， 它 的 逆序 表 就 是 这 样 的 一 个 表 列 ; 给 定 这 样 的 一 个 表 列 ， 其 对 应 的 排列 可 以 从 右 
向 左 构造 出 来 :对 i 从 NN 递减 到 1， 置 p, 为 未 曾 用 过 的 数 中 第 qj 大 的 数 。 考 虑 下 面 的 例子 : 

下 标 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 

逆序 表 0 0 2 3 1 4 2 1 5 5 3 9 6 0 8 

排列 9 14 4 1 12 2 10 13 5 6 11 3 8 15 7 

排列 可 以 通过 在 逆序 表 中 从 右 向 左 移动 构造 出 来 : 7 是 1 到 15 中 第 八大 的 整数 ，15 是 剩余 
整数 中 最 大 的 ，8 是 剩余 整数 中 第 六 大 的 ， 等 等 。 因 为 对 第 ;项 输入 有 大 可 能 ， 所 以 共有 NI 个 
逆序 表 (和 排列 ! )。 

这 种 对 应 在 分 析 中 很 重要 ， 因 为 一 个 随机 排列 等 价 于 一 个 “随机 ”逆序 表 ， 该 逆序 表 是 
通过 对 其 第 /个 输入 项 赋 以 0 到 j - 1 之 间 的 一 个 随机 整数 而 生成 的 。 在 建立 关于 逆序 和 以 乘积 
的 形式 巧妙 地 分 解 左 向 右 最 大 值 的 GF 时 ， 我 们 将 利用 到 这 一 事实 。 
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习题 6.10 给 出 一 个 有 效 的 算法 ， 求 对 应 于 一 个 给 定 排列 的 逆序 表 ; 再 给 出 一 个 算法 ， 求 
对 应 于 一 个 给 定 逆序 表 的 排列 。 

习题 6.11 定义 逆序 表 的 另外 一 种 方法 是 令 q; 等 于 排列 中 i 的 左 方 大 于 i 的 整数 的 个 数 。 对 
这 种 逆序 表 证 明 一 对 一 的 对 应 关系 。 

格 表示 法 。 图 6-2 给 出 了 一 个 二 维 表示 法 ， 它 对 研究 排列 的 许多 性 质 都 是 很 有 用 的 : 排列 
pip2…pw 是 通过 对 每 个 i， 在 第 p; 行 、 第 i; 列 所 对 应 的 单元 格 中 标 上 数 p; 的 方法 来 表示 的 。 从 右 向 
左 读 这 些 数 就 会 回 到 该 排列 。 每 行 上 和 每 列 上 都 有 一 个 标号 ， 因 此 每 一 个 单元 格 都 对 应 唯一 
的 一 对 标号 : 一 个 在 它 的 行 上 ， 一 个 在 它 的 列 上 。 如 果 一 对 标号 中 的 一 个 成 员 在 单元 格 的 下 
方 而 另 一 个 在 单元 格 的 右 方 ， 那 么 这 个 标号 对 就 是 排列 的 一 个 逆序 ， 对 应 的 单元 格 在 图 6-2 中 
都 用 圆 点 做 上 了 记号 。 特 别 要 注意 的 是 : 排列 和 其 逆 排 列 的 图 形 是 相互 转 置 的 ， 这 也 是 下 述 
结论 的 一 个 初等 证 明 一 一 每 个 排列 都 和 它 的 逆 排 列 有 相同 数量 的 逆序 数 。 





图 6-2 排列 和 其 逆 的 格 表示 法 
N 2 
习题 6.12 ”证 明 在 一 个 Nx Ni Aa Lae Metal "E MYRRA (|) E 


习题 6.13 ”在 格 表示 法 中 ,假设 我 们 对 单元 格 的 成 员 在 其 上 方 和 其 左 方 的 单元 格 作 标记 ， 
那么 有 多 少 个 单元 格 被 做 了 标记 ? 对 另外 两 种 可 能 (“上 和 右 ” 及 “下 和 左 ") 回答 相同 的 
问题 。 

习题 6.14 证 明 对 合 的 格 表示 法 关于 主 对 角 线 是 对 称 的 。 

二 叉 查 找 树 。 图 6-3 给 出 了 排列 与 二 又 查找 树 之 间 的 一 个 直接 关系 。 回忆 5.5 节 ， 二 又 查找 
树 (BST) 中 每 个 结 点 都 有 一 个 关键 字 、 一 个 指向 由 较 小 关键 字 构 成 的 BST 的 左 链 ( 可 能 是 空 
的 ) 和 一 个 指向 由 较 大 关键 字 构 成 的 BST 的 右 链 (可 能 是 空 的 )。 在 第 5 章 中 ， 我 们 分 析 了 用 
程序 5.3 从 一 个 随机 排列 向 一 个 初始 为 空 的 树 中 相继 插入 关键 字 而 生成 的 树 的 性 质 。 图 6-3 曾 明 
了 排列 的 格 表示 法 和 BST 树 之 间 的 一 个 直接 对 应 关系 : 每 个 标号 对 应 一 个 结 点 ， 标 号 的 行 号 


对 应 关键 字 的 值 ， 该 标号 上 方 和 下 方 的 部 分 标号 分 别 生成 结 点 的 左右 子 树 。 特 别 地 ， 二 又 查 


找 树 对 应 1, 1 + 1,…, 7 行 ， 且 k 行 最 左边 《最 小 列 号 ) 的 标号 是 由 关键 字 k 递 归 定 义 的 ， 左 子 树 
对 应 行 1, 1 +1,…, 上 一 1， 布 子 树 对 应 行 E+ 1,k+ 2,…,7。 注 意 ， 可 能 有 许多 个 排列 对 应 同一 棵 
二 又 查找 树 : 将 对 应 于 最 上 方 结 点 的 列 号 与 对 应 于 最 下 方 结 点 的 列 号 互 换 ， 将 改变 一 个 排列 ， 
但 不 改变 树 。 事 实 上 ， 在 第 3 章 中 我 们 曾经 看 到 过 ， 不 同 二 又 树 结构 的 个 数 是 由 Catalan 数 来 统 
计 的 ， 与 N! 相 比 ， 该 数 (APH 4" /NVAN ) 还 是 比较 小 的 ， 因 此 每 一 棵 树 肯 定 要 有 许多 排 
列 必然 与 之 对 应 。 上 一 章 中 关于 BST 树 的 解析 结果 或 许 就 是 以 研究 这 种 关系 的 本 质 为 特征 的 。 
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图 6-3 对 应 于 一 个 排列 的 二 又 查找 树 

习题 6.15 列 出 五 个 对 应 于 图 6-3 中 BST 树 的 排列 。 

堆 序 树 。 正 如 图 6-4 所 表明 的 那样 ， 树 也 可 以 用 类 似 的 涉及 列 的 方式 、 通 过 格 表示 法 来 建 
立 。 树 中 根 结 点 关键 字 的 值 小 于 其 子 树 中 关键 字 的 值 ， 这 样 的 树 叫 做 堆 序 树 (HOT )。 堆 序 树 
对 我 们 当前 的 学 习 内 容 非 常 重要 ， 因 为 我 们 所 关注 的 排列 的 性 质 可 以 很 容易 地 看 成 是 树 的 性 
质 。 例 如 ， 带 有 两 个 非 空子 树 的 结 点 对 应 于 排列 中 的 谷 ， 而 叶 结 点 对 应 于 排列 中 的 峰 。 





图 6-4 对 应 于 一 个 排列 的 堆 序 树 

以 这 种 树 作为 数据 结构 来 实现 优先 队列 也 有 很 多 好 处 。 最 小 的 关键 字 在 根 处 ， 所 以 “ 删 
除 最 小 的 ”操作 可 以 这 样 来 〈 递 归 地 ) 实现 : 将 该 根 结 点 用 具有 较 小 关键 字 的 子 树 的 根 结 点 
来 取代 .“ 插 入 ”操作 可 以 这 样 来 (递归 地 ) 实现 : 在 树 中 插入 一 个 新 结 点 ， 如 果 新 结 点 的 关 
键 字 不 小 于 根 结 点 的 关键 字 ， 则 将 新 结 点 插 在 根 结 点 的 右 子 树 中 ; 否则 将 新 结 点 变 成 根 结 点 ， 
原来 的 根 结 点 变 成 新 结 点 的 左 子 树 ， 新 结 点 的 右 子 树 为 空 。 

从 组 合 学 的 角度 来 看 ， 注 意 到 HOT 树 是 唯一 一 个 排列 的 完全 编码 是 很 重要 的 (这 一 点 与 
BST 树 相反 )。 关 于 HOT 树 更 详细 的 知识 以 及 其 他 的 应 用 ， 可 参见 Vuillemin[17]。 

HOT 树 的 直接 计数 。 为 了 实现 圈 ， 考 查 HOT 树 的 直接 计数 问题 肯定 会 对 我 们 有 所 启发 
(我 们 已 经 知道 它们 有 N! 个 )。 设 是 HOT 树 的 集合 ， 并 考虑 EGF 


z" 

HO Yi 
AE, ARHI + itd + 1 个 结 点 的 HOT 树 都 可 以 通过 唯一 的 方法 构造 出 来 : 将 任意 一 棵 位 
于 左边 大 小 为 li 的 HOT 树 与 位 于 右边 的 任意 一 棵 大 小 为 li 的 HOT 树 联合 ， 将 根 赋 以 标号 “1”， 
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tle, + ltg 个 标号 分 成 大 小 分 别 为 和 ltxl 的 两 个 集合 来 对 子 树 进行 标号 : 对 每 个 集合 排序 
将 集合 元 素 以 下 标的 顺序 对 两 棵 子 树 进 行 标 号 。 该 方法 本 质 上 是 对 第 3 章 中 所 描述 的 标号 乘积 
结构 的 一 个 重 述 。 根 据 EGF， 这 就 导致 方程 


H( ) | th I+] te gët 
í -53 lt, l | 
对 方程 两 边 微分 ， 立 即 得 到 

H'(z) = H’ (z) 或  H(z)=1+ 人 H?(t)dt 


该 公式 也 可 以 通过 关于 标号 对 象 的 符号 法 直接 得 出 〈 见 第 3 章 和 [4] )。 两 种 基本 操作 对 该 公式 
的 解释 是 : 对 根 赋 以 标号 1 对 应 于 积分 ， 合 并 两 棵 子 树 对 应 于 一 个 乘积 。 现 在 ， 微 分 方程 的 解 
是 H(z) = 1/1 - z)， 这 就 检验 了 我 们 的 知识 关于 N 个 结 点 ， 有 NI 个 HOT 树 。 

类 似 的 计算 将 导出 以 HOT 树 表 示 波 为 特征 的 排列 的 参数 统计 量 〈 如 峰 、 谷 、 上 升 和 降落 )， 
正如 我 们 下 面 的 习题 中 所 采用 的 、 以 及 6.5 节 中 要 进一步 讨论 的 计算 一 样 。 

习题 6.16 描述 HOT 树 中 对 应 于 排列 中 的 上 升 、 双 升 、 降 落 和 双 落 的 结 点 的 特征 。 

习题 6.17 有 多 少 个 排列 是 严格 交替 的 : 对 1<i<N， Z Ap -fp :都 小 于 Pi， 要 么 局 -1 和 
Piz 都 大 于 Pi 

习题 6.18 列 出 对 应 于 图 6-4 中 的 HOT 树 的 5 个 排列 。 

习题 6.19 设 K(z) = z/(1 - z) 是 关于 非 空 HOT 树 的 EGF， 给 出 一 个 直接 论证 ， 证 明 K'(z) = 
1 + 2K(z) + K°(2). 

习题 6.20 用 类 似 于 以 EGF 对 HOT 树 计数 的 论证 方法 导出 二 叉 查 找 树 中 关于 内 部 路 径 长 度 
的 指数 CGF 的 微分 方程 (参见 定理 5.5 的 证 明 及 6.5 节 )。 

有 多 少 个 排列 与 给 定 的 一 个 经 由 HOT 或 BST 构 造 而 成 的 二 又 树 相 对 应 ”这 一 问题 的 结果 
可 以 用 一 个 简单 的 公式 来 表示 。 给 定 一 棵 树 !， 令 fl) 是 把 标记 成 一 棵 HOT 树 的 方法 数 。 根 据 
刚才 的 论证 ， 此 函数 满足 下 面 的 递归 方程 

It, l+ltp 
ro-| 


It, | 


fourteen) 
如 果 f 是 对 应 于 一 个 BST 的 排列 的 个 数 的 话 ， 此 公式 同样 成 立 ， 这 是 因为 存在 唯一 一 个 对 根 
(l+ 1) 的 标号 以 及 一 个 关于 子 树 的 剩余 标号 的 自由 划分 。 注意: 中 结 点 的 个 数 是 li + lel + 1， 
方程 两 端 均 除 以 此 数 ， 我 们 得 到 
flit, |+ltgl+]) _ 1 F(t.) fltr) 
(lt, l+ltgl+D! dt l+ltgl+1 t,! t! 
这 就 直接 导出 了 下 面 的 定理 : 
定理 6.1 (HOT 树 和 BST 树 的 频数 ) 无 论 树 t 是 HOT 形 的 还 是 BST 形 的 ， 其 频数 都 是 
f(t) =e u ag bby D 
其 中 心 ，…, Un 是 以 ll 个 结 点 中 的 每 一 个 结 点 为 根 的 子 树 。 换 向 话 说 ，f (站 是 用 标号 1.… 


specie NHOT HHS 3 AK, 也 是 当 使 用 标准 算法 时 ， 导 出 建立 一 个 ! 形 BST 树 
的 1… 呈 的 排列 数 。 


证 明 利用 初始 条 件 : WAIN SO = 1， 对 上 面 给 定 的 递归 公式 进行 迭代 即 可 。 本 


a 
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例如 ， 标 记 图 6-4 中 HOT 树 的 方式 数 是 151/(15 © 3-2-11°9-5-2-2-+3)= 1223040, 

注意 ，HOT 树 和 BST 树 频数 一 致 的 事实 也 是 组 合 学 中 所 期 望 的 。 由 图 6-3 和 图 6-4 所 阐明 
的 两 种 对 应 关系 在 结构 上 是 相同 的 ， 只 不 过 是 两 个 轴 互 换 罢 了 。 换 名 话说， 一 个 更 强 的 性 质 
也 成 立 : 对 应 于 一 个 排列 的 BST 与 对 应 于 其 逆 排 列 的 HOT 具 有 相同 的 形状 (但 不 具有 相同 的 
标号 )。 

习题 6.21 有 多 少 个 排列 与 图 6-3 中 的 BST 树 对 应 ? 

习题 6.22 描述 大 小 为 W， 频 数 最 小 及 频数 最 大 的 二 叉 树 的 特征 。 


6.4 计数 问题 


本 章 引言 部 分 所 列举 的 许多 问题 都 是 计数 问题 。 就 是 说 ， 在 我 们 所 关注 的 各 种 性 质 中 ， 
我 们 想 知道 满足 某 个 特定 性 质 的 排列 数 有 多 少 。 相 应 地 ， 将 其 除 以 N! 就 可 以 得 到 满足 某 个 特 
定性 质 的 排列 数 的 概率 。 我 们 配合 对 排列 计数 的 EGF 来 进行 讨论 ， 这 与 讨论 关于 概率 的 OGF 
是 等 价 的 。 

排列 中 大 量 有 趣 的 性 质 可 以 通过 对 图 长 的 简单 约束 而 表示 出 来 ， 因 此 我 们 从 详细 考查 这 
样 的 问题 入 手 。 我 们 很 想 知道 : 对 一 个 给 定 的 参数 x:， 具 有 下 列 约 束 的 排列 的 准确 个 数 是 多 少 
(i) 只 有 长 度 为 的 圈 ; (ii) 不 存在 长 度 大 于 k 的 圈 ; 和 (ili) 不 存在 长 度 小 于 k 的 圈 。 本 节 ， 
我 们 将 对 这 些 计 数 问题 给 出 分 析 结 果 。 表 6-4 给 出 了 N< 10 和 k< 4 时 的 统计 数据 。 


表 6-4 有 图 长 约束 的 排列 的 计数 





图 长 1 2 3 4 5 6 7 8 9 
全 部 =1 1 1 1 1 1 1 1 1 1 
=2 0 1 0 3 0 15 0 105 0 
=3 0 0 2 0 0 40 0 0 2240 
=4 0 0 0 6 0 0. 0 1260 0 
<3 (对 合 ) 1 2 4 10 26 76 232 764 2620 
<4 1 2 6 18 66 276 1212 5916 31068 
<5 1 2 6 24 96 456 2472 14736 92304 
>1 (错位 ) 0 1 2 9 44 265 1854 14833 133496 
>2 0 0 2 6 24 160° 1140 8988 80864 
>3 0 0 0 6 24 120 720 6300 58464 
不 受 限 1 2 6 24 120 720 5040 40320 362880 





长 度 相 等 的 图 。 只 由 长 度 为 :的 圈 所 构成 的 长 度 为 N 的 排列 一 共有 多 少 个 ?我 们 先 对 k = 2 
时 给 出 一 个 简单 的 组 合 论 证 。 如 果 入 为 奇数 ， 则 只 含 双 元 素 圈 构成 的 排列 有 零 个 ， 所 以 我 们 考 
虑 NM 是 偶数 的 情况 。 我 们 选 出 一 半 元 素 作为 每 个 围 的 第 一 个 元 素 ， 然 后 指定 第 二 个 元 素 ， 则 指 
定 方式 有 (N/2)! 种 ， 因 为 不 用 考虑 元 素 的 顺序 ， 所 以 每 个 排列 统计 了 2 党 次。 由 此 可 得 出 
长 度 为 2 的 圈 所 构成 的 排列 总 数 为 | 
t 
PACE = Eee 


上 式 乘 以 z* 并 除 以 N! 后 ， 我 们 就 得 到 其 指数 生成 函数 


z“ 22/2 
De wD" 
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正如 我 们 在 第 3 章 中 所 见 到 的 那样 ， 符 号 法 也 能 直接 给 出 这 个 EBGF， 它 利用 的 是 “集合 的 ” 
构造 并 观察 长 度 为 2 的 圈 的 EGF 是 z2/2 而 得 到 的 。 对 此 结论 进行 推广 ， 就 可 以 证 明 仅 由 长 度 为 k 
的 圈 构 成 的 排列 数 的 EGF 是 eh。 欢迎 读者 复习 第 3 章 中 有 关 标 号 对 象 符号 法 的 讨论 ， 特 别 是 
对 k= 1 和 k = 2 来 思考 这 个 公式 ， 从 而 了 解 “集合 的 ”构造 是 如 何 工作 的 。 

对 合 与 图 长 的 上 界 。 由 于 e: 是 仅 由 单元 素 圈 构 成 的 排列 数 的 EGF， 且 e*? 是 仅 由 双 元 素 图 
构成 的 排列 数 的 EGF， 所 以 由 长 度 为 1 或 长 度 为 2 的 圈 构 成 的 排列 数 的 EGF 是 e+ “2?。 类 似 地 ， 
仅 由 长 度 为 1 或 2 或 3 的 圈 构 成 的 排列 数 的 EGF 是 ee**2+*3， 依 此 类 推 。 和 第 3 章 一 样 ， 当 我 们 
完成 这 种 重复 的 分 析 过 程 时 ， 就 得 到 了 关于 无 圈 长 约束 的 排列 数 的 EGF 为 


et [242 Bart lar ee exp( In— \ = 1 
\ l-z) 1-z 





这 与 我 们 所 期 望 的 结果 是 一 致 的 。 

习题 6.23 求 仅 由 偶数 长 度 的 圈 所 构成 的 排列 数 的 EBGF。 对 此 结果 进行 推广 ， 求 仅 由 长 度 
能 被 :整除 的 园 所 构成 的 排列 数 的 EGF。 

正如 上 一 节 所 简要 提 到 的 那样 ， 对 合 可 以 被 看 成 是 一 种 圈 长 受到 约束 的 排列 ， 因 此 刚才 
的 论证 可 以 应 用 到 计数 上 。 在 一 个 排列 中 ， 如 果 P; = j， 那 么 在 其 逆 排 列 中 ， 就 有 p; =i: 在 一 
个 对 合 中 ,对 任意 的 ;i*j， 上 述 两 点 同时 成 立 ， 或 者 说 ， 圈 (j) 必定 出 现 。 这 一 观察 隐 含 了 : 
对 合 是 由 长 度 为 2 (p, =i) 或 1 (P = 7) 的 圈 所 构成 的 。 因 此 ， 对 合 恰好 就 是 那些 仅 由 单元 素 
圈 和 双 元 素 圈 所 构成 的 排列 ， 所 以 关于 对 合 数 的 EGF 是 er**?。 

定理 6.2 (AMK) 对 不 含 图 长 大 于 Kk 的 排列 个 数 计 数 的 EGF 是 

exp(Z+2z /2+2 /3+.+2*/k) 


特别 地 ， 对 合 个 数 的 EGF 是 


B(z) = ete l2 


x M ngs 
N! B(z) = 
MBO Dan Peel 
证 明 参见 上 面 关于 EGF 推 导 的 讨论 。 对 合 的 个 数 是 通过 展开 


ener? = È e) = È He 
j! 2 Ro IN 2 


HRR IMER. 


对 合 个 数 的 渐 近 形式 可 以 由 第 4 章 的 拉 普 拉 斯 方法 导出 。 取 和 式 中 相 邻 两 项 的 比值 ， 我 们 有 


! N! 7 2(k +1) 
(N —2k)!2*kt/ (N-2k-2)12*"(k+D! (N-2k)(N -2k-1) 


FE A EES (N-VN)/2 ZA, TRY. Fil AStirlingi@ wt 
来 估计 峰值 附近 的 主要 贡献 ， 并 利用 一 个 正 态 逼 近来 跟 定 两 个 尾部 ， 其 结果 的 导出 方式 与 第 4 
章 各 个 例子 中 结果 的 导出 方式 是 一 样 的 。Knuth[10] 中 给 出 了 推导 的 细节 。 m 

直接 推导 对 合 个 数 的 EGF 也 具有 启发 性 。 设 B(z) 是 关于 对 合 数 的 指数 生成 函数 ， 因 而 bw = 
N![z*]B(z)。 根 据 定义 ， 








© 


ip 
Biz) = 二 _ 
© D> Ipl! 


个 对 合 
现在 ， 每 个 长 度 为 pI 的 对 合 都 对 应 于 (i) 一 个 长 度 为 pl + 1 的 、 通 过 在 原 对 合 中 加 入 由 Il + 1 所 
构成 的 单元 素 的 围 而 形成 的 对 合 ; 及 (ii) p+ 1 个 长 度 为 jpl + 2 的 对 合 ， 这 些 对 合 是 通过 在 原 
对 合 中 对 每 个 1 到 lpl + 1 的 上 ， 对 排列 元 素 大 于 k 的 元 素 加 1， 然 后 添加 一 个 由 k 和 lpl + 2 所 构成 的 
双 元 素 圈 而 形成 的 。 上 述 结果 意味 着 生成 函数 必须 满足 


zi zip? 
Bo- Š TE SARTO 


了 个 对 合 了 个 对 合 


对 其 两 端 微分 ， 化 简 后 得 
B'(z)= (1 + 2)B(z) 


该 方程 的 解 为 


B(z) = ee 


习题 6.24 证 明 长 度 为 N 的 对 合 数 满足 如 下 递 推 关系 
byi = by + Nby-1, 24N>0H by =b, = 1 时 

(例如 ， 该 递 推 关系 可 以 用 于 计算 表 6-4 中 对 应 于 对 合 那 一 行 上 的 各 项 数据 。) 

习题 6.25 导出 一 个 递 推 关系 ， 用 来 计算 不 存在 圈 长 大 于 3 的 排列 数 。 

习题 6.26 利用 4.10 节 中 的 方法 ， 对 不 存在 图 长 大 于 k 的 排列 数 导 出 一 个 关于 NW OAR. 

错位 排列 与 转 长 的 下 界 。 关 于 排列 最 著名 的 计数 问题 恐怕 就 是 错位 排列 问题 了 。 假 设 N 个 
人 在 剧院 寄存 帽子 ， 然 后 按 随 机 顺序 取 走 。 任 何 一 个 人 拿 走 的 都 不 是 他 自己 的 帽子 的 概率 是 
多 少 ” 例 如 ，4 个 元 素 的 错位 排列 是 如 下 6 个 含有 一 个 圈 长 为 4 的 排列 

2341 241 3 3421 314 2 4312 4123 
和 如 下 3 个 含有 双 元 素 圈 的 排列 

2143 3412 4321 
四 元 素 的 所 有 其 他 排列 都 至 少 有 一 个 单元 素 的 圈 ， 所 以 关于 N = 4 的 相应 概率 是 9/24 = 0.375. 

用 我 们 已 讨论 过 的 方法 求解 这 一 问题 非常 直接 。 问 题 中 的 概率 是 不 含 单元 素 圈 的 排列 数 
的 EGF 中 心 的 系数 。 如 上 ， 我 们 可 以 通过 图 长 为 2, 3, 4,… 来 构造 错位 排列 ， 其 EGF 为 


e? (Ae /3 = exp n—— 一 z) = 


\ -z 





e* 
l-z 


该 结果 的 另 一 种 推导 方法 如 下 所 述 。 我 们 按 下 述 方法 来 构造 所 有 排列 的 类 : 取 仅 含 单元 
素 圈 构 成 的 排列 和 不 含 单元 素 圈 的 排列 的 “乘积 "， 用 符号 方程 表示 为 
P=C xp" 


该 方程 可 以 翻译 成 一 个 隐 式 方程 ， 它 定义 了 对 错位 排列 计数 的 EGF DG): 


1 
——— = e* D(z) 
i-z 


因为 (1 - z) 计 数 所 有 排列 ， 且 e' 是 对 单元 素 的 图 的 计数 。 所 以 
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ez 
D(z) = l-z 
这 是 生成 函数 的 一 个 简单 的 卷 积 ， 它 导出 如 下 结果 


L'o- Y c> 
在 4.4 节 中 我 们 曾 指 出 过 这 个 和 式 渐 近 于 1/e。 


定理 6.3 (最 小 图 长 ) 不 含 图 长 小 于 等 于 k 的 排列 数 的 EGF 为 
DID(z) = Doe Pt 
1-z 
[z* ID" (z) ~ ete 


特别 地 ， 对 于 错位 排列 有 


_ k 
[z* 1D(z) = 之 cy 2 ~1/e ~ 0.36787944 
OCkEN . 


证 明 ”我们 可 以 对 上 述 两 个 论证 中 的 任意 一 个 进行 推广 。 例如， 我 们 可 以 从 下 面 的 符号 广 
程 开始 
P = C” x CP x- x CH x D 
将 其 翻译 成 生成 函数 的 方程 
J = Eeth et DN) 
l-z 


从 而 得 到 


e7272 one Tk 
D(z) = 
l-z 


定理 中 的 渐 近 结果 是 定理 4.12 的 一 个 直接 推论 。 e [322 
为 参考 起 见 ， 前 面 所 讨论 过 的 关于 有 约束 圈 长 排列 的 计数 问题 的 解 在 表 6-5 中 已 经 列 出 。 
指数 生成 函数 以 及 它们 系数 的 新 近 估 计 也 都 列 了 出 来 。 


表 6-5 带 有 团 长 约束 的 排列 的 EGF 








EGF NI[z 的 渐 近 估计 
单元 素 图 ez 
KAR etl — 
所 有 排列 J Ni~ LA z) 
l~z e 
错位 排列 = une" 
FAE > ke oJ _ Nie 











af 46 二 








( 续 ) 
本 z+7212 ~ 1 an (N)\ Ne 
对 合 e 2 Ne) 


所 有 < kK erie tect ik — 


习题 6.27 通过 对 关系 式 (1 - z)D(z) = er 微分 并 令 两 端 系数 相等 ， 求 出 N 个 元 素 的 错位 排 
列 数 所 满足 的 一 个 递 推 关系 。 

习题 6.28 ”号 一 个 程序 ， 对 给 定 的 KE， 打 印 一 个 不 含 围 长 小 于 K 的 N (N<20) 元 素 排列 个 数 
的 表 。 

习题 6.29 ”一 个 N 元 素 的 排列 是 由 这 N 个 元 素 的 一 个 子 集 所 形成 的 序列 。 证 明 关 于 排列 的 
EGF - z)。 将 系数 表示 成 一 个 简单 的 和 式 ， 并 从 组 合 学 上 解释 这 个 和 式 。 


6.5 利用 CGF 分 析 排 列 的 性 质 


本 节 ， 我们 利用 累积 生成 函数 (CGF) 来 概述 一 个 基本 方法 ， 利 用 这 个 方法 对 本 章 提出 
的 多 种 问题 的 排列 性 质 进行 分 析 。 这 个 方法 在 第 3 章 中 已 经 介绍 过 ， 我 们 可 以 归纳 如 下 : 
“定义 一 个 形 如 B(z) = 》,pcost(p)z" /1plt 的 指数 CGF; 


。 通 过 “分 解 ” 排 列 来 划分 和 式 ， 找 出 关于 B(2) 的 另 一 个 表达 式 ; 

。 对 B(Z) 导 出 一 个 函数 方程 ; 

。 解 方程 或 利用 解析 方法 求 出 zB) 。 

第 二 步 所 说 的 “划分 ”实际 上 是 通过 在 排列 中 找 出 一 个 对 应 关系 来 实现 的 ， 最 常见 的 划 
分 是 将 长 度 为 lpl 的 ipl! 个 排列 划分 成 大 小 为 lpl 的 lp 一 IH 个 集合 ， 其 中 每 个 集合 都 与 其 中 的 一 个 
长 度 为 p - 1! 的 排列 相对 应 。 特 别 地 ， 如 果 尹 是 对 应 于 一 个 给 定 排列 q 的 长 度 为 lql + 1 的 排列 
的 集合 ， 那 么 上 述 第 二 步 相 当 于 把 CGF 重 写 如 下 : 


z 
B(z) = Starr 


天 中 的 排列 往往 都 有 着 紧密 的 关系 ， 因 而 内 层 和 式 很 容易 计算 ， 于 是 就 导出 了 关于 BCZ) 的 另 
一 个 表达 式 。 通 常 是 对 该 表达 式微 分 ， 以 便 处 理 方程 右 端 的 za1。 

对 排列 而 言 ， 这 个 分 析 在 某 种 程度 上 可 以 简化 ， 因 为 关于 指数 CGF 的 阶乘 也 要 计 入 排列 
总 数 之 内 ， 所 以 指数 CGF 也 是 所 求 平均 值 的 一 个 常规 GF。 即 ， 如 果 


B(z) = Sp /ipl! 
则 有 | 
[IBO = Sk {开销 为 k 长 度 为 N 的 排列 数 YN， 
这 恰好 就 是 平均 开销 。 对 其 他 组 合 结构 而 言 ， 我 们 必须 用 由 CGF 得 到 的 累积 数 除 以 总 数 才 能 
得 到 平均 值 ， 尽 管 也 有 其 他 情况 : 累积 数 具 有 非常 简单 的 形式 ， 除 法 可 以 并 入 生成 函数 之 内 。 


我 们 将 在 第 7 章 看 到 另外 一 个 例子 。 
涉及 排列 之 间 对 应 关系 的 组 合 论证 也 常常 用 来 导出 一 个 递 推 关系 ， 甚 至 是 一 个 完整 的 





| 列 205 


BGF， 于 是 它 将 会 给 出 一 个 更 强 的 结果 ， 这 是 因为 对 BGF 一 个 参数 的 明确 了 解 ， 意 味 着 对 值 
的 分 布 的 了 解 。 然 而 ， 当 使 用 CGF 时 ， 我 们 用 的 是 平均 值 ， 对 平均 值 的 处 理 用 不 着 完全 擎 握 
分 布 ， 因 而 常常 可 能 导出 更 简单 的 计算 。 

下 述 划分 排列 的 简单 方法 作为 这 种 处 理 方式 的 基础 是 最 重要 的 一 些 方法 。 

“最 大 ”或 “最 小 ”对 应 。 给 定 一 个 长 度 为 N 的 排列 ， 考 虑 从 这 个 排列 中 通过 简单 地 去 掉 
最 大 元 素 而 形成 的 那个 排列 。 这 个 长 度 为 N - 1 的 新 排列 恰好 对 应 N 个 长 度 为 N 的 不 同 排列 ， 
其 中 每 个 排列 的 最 大 元 素 取 每 一 个 可 能 的 位 置 。 例 如 : 

54123 45123 41523 41253 41235 
都 对 应 4 1 2 3。 或 进一步 说 ， 给 定 长 度 为 N - 19 (N- 1)! 个 排列 中 的 任意 一 个 ， 我 们 
都 能 通过 把 N 放 在 每 个 可 能 的 位 置 而 确定 出 N 个 长 度 为 N 的 不 同 排列 。 我 们 可 以 对 任何 其 他 元 
素 做 同样 的 素 情 ， 而 不 仅仅 是 最 大 元 素 ， 只 要 我 们 适当 地 给 其 余 的 元 素 编号 。 例如， 使 用 最 
小 元 素 要 涉及 对 其 他 每 个 元 素 加 1， 然 后 将 1 放 入 每 个 可 能 的 位 置 。 

“第 一 ”或 “最 后 ”对 应 。 给 定 一 个 长 度 为 N 的 排列 ， 考 虑 从 这 个 排列 中 通过 简单 地 去 掉 
第 一 个 元 素 、 然 后 对 其 余 元 素 重新 编号 并 保持 原 有 上 顺序 而 形成 的 一 个 长 度 为 N - 1 的 特定 的 排 
列 。 该 排列 恰好 对 应 N 个 长 度 为 N 的 不 同 排列 ， 其 中 每 个 排列 的 第 一 个 元 素 取 每 一 个 可 能 的 值 。 
例如 : 


15234 25134 35124 4512 3 5 412 3 


都 对 应 4 1 2 3。 或 进一步 说 ， 给 定 长 度 为 N - 1 的 (N - 1)! 个 排列 中 的 任意 一 个 排列 ， 
我 们 都 能 通过 对 每 个 从 1 到 N 的 上 KE， 在 该 排列 的 第 一 个 位 置 前 插入 k， 然 后 对 所 有 大 于 等 于 /的 
数 加 1 而 确定 出 N 个 长 度 为 N 的 不 同 排列 。 这 就 定义 了 “第 一 ”对 应 。 我 们 可 以 对 任何 其 他 
元 素 做 同样 的 事情 ， 而 不 仅仅 是 第 一 个 元 素 。 例 如 ， 如 果 使 用 最 后 一 个 元 素 作 为 对 应 依据 ， 
那么 

52341 51342 51243 51234 41235 
都 对 应 4 1 2 3. ' 

二 又 查找 树 分 解 。 给 定 两 个 排列 pm 和 P,， 我 们 可 以 通过 (i) 对 p, 的 每 个 元 素 加 Ipi + 1; 
(ii) 用 所 有 可 能 的 方式 将 pj 和 p, 混 合 i (iii) 对 混合 后 的 每 个 排列 加 上 前 缕 Ipl + 1 来 产生 长 度 
Alpi + lp,| + 1、 总 个 数 为 | 

lpl+tip, 
( A ) 


的 排列 。 正 如 我 们 在 6.3 节 中 所 见 过 的 那样 ， 用 这 种 方式 得 到 的 所 有 排列 将 导出 利用 标准 算 
法 构造 的 相同 的 二 叉 查 找 树 。 因 此 ， 这 种 对 应 可 用 作 BST 及 其 相关 算法 分 析 的 基础 。( 见 习 
题 6.20 ) 

堆 序 树 分 解 。 一 个 排列 可 以 通过 取 最 小 元 素 左边 的 那些 元 素 和 景 小 元 素 右边 的 那些 元 素 


并 重新 编号 而 唯一 地 分 解 成 “ 左 ”“ 右 ”两 个 排列 。 例 如 ，2 5 1 4 6 3 可 以 分 解 成 1 2 和 2 


3 1, 而 6 2 4 3 1 5 可 以 分 解 成 4 1 3 2 和 1。 递 归 地 运用 这 种 分 解 ， 就 对 应 了 HOT 树 的 
构造 。 关 于 参数 用 HOT 树 的 结构 给 出 一 种 自然 的 解释 是 很 有 用 的 。 

注意 ， 所 有 这 些 分 解 将 导致 CGF 的 微分 方程 ， 因为 去 除 元 素 对 应 于 改变 计数 序列 ， 这 可 
翻译 成 对 生成 函数 的 积分 ( 见 表 3-4)。 

游程 和 上 升 。 作 为 使 用 CGF 来 分 析 排 列 性 质 的 一 个 例子 ， 我 们 来 推导 一 个 随机 排列 中 游程 
的 平均 数 。 前面 给 出 的 初等 论证 表明 了 : 在 一 个 长 度 为 N 的 排列 中 ， 游 程 的 平均 个 数 是 (N + D2, 


we 
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但 是 正如 欧 拉 所 发 现 的 那样 (更 多 细节 见 [10] 和 [1])， 研究 游程 的 整个 分 布 才 会 更 有 意义 。 表 6-6 
和 图 6-5 对 较 小 的 N 和 k 曾 明了 这 种 分 布 。 


表 6-6 排列 中 游程 的 分 布 〈 欧 拉 数 ) 


N} k—1 2 4 5 6 7 8 9 10 
1 1 
2 1 1 
3 1 4 1 
4 1 11 11 1 
5 1 26 66 26 1 
6 1 57 302 302 57 1 
7 1 120 1191 2416 1191 120 1 
8 1 247 4293 15619 15619 4293 247 1 
9 1 502 14608 88234 156190 88234 14608 502 1 
10 1 1013 47840 455192 1310354 1310354 455192 47840 1013 1 
0.667 ~ 


0.167 








0 N/2 N 


图 6-5 3<N< 60 时 游程 的 分 布 (k 轴 按 N 的 比例 标 度 )( 欧 拉 数 ) 
我 们 从 (指数 的 ) CGF 


z” 
A(z) = DaD 


开始 推导 。 利 用 “最 大 ”对 应 : 如 果 最 大 元 素 插 入 在 p 中 一 个 游程 的 尾部 的 话 ， 则 游程 数 不 
变 ; 否则 ， 游 程 数 增 1。 对 应 于 给 定 排列 p 的 排列 中 游程 的 总 数 是 
(lpl+D)a(p)+lpl+l-a(p)=lpla(p)+lpl+l 
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这 就 导出 了 下 面 的 另 一 个 表达 式 
A(z) = Serle len api 
如 果 对 其 微分 ， 则 上 式 将 大 大 简化 : 


Ya z” 
AO- Yi places! pl Dr 


rl 
-A D+ +i 


因此 4'(z) = 1/(1 ~ 2), Pre Ra. T 


1 
AD = sap 2 
这 样 我 们 就 得 到 了 所 预期 的 结果 [z”]4(z) = (N +1)/2 

本 章 我 们 还 将 对 这 个 形式 进行 多 次 推导 。 在 某 些 情况 下 (包括 本 次 )， 通 过 对 变量 展开 或 
利用 符号 法 来 找到 平均 游程 数 的 二 元 生成 函数 《或 一 个 递 推 关系 ) 是 有 可 能 的 ， 然 而 ，CGF 
常常 并 不 需要 太 多 的 计算 就 能 给 出 平均 值 ， 必 要 时 我 们 也 能 利用 BGF 或 递 推 关系 来 找到 它 的 
标准 差 以 及 分 布 的 其 他 的 矩 。 


定理 6.4 ( 欧 拉 数 ) 具有 K 个 游程 的 N 元 素 排列 可 利用 指数 BGF 


A(u z)= A PEN ok 
Í >») WN! 1-ue™” 


通过 欧 拉 数 Am 来 计数 。 在 长 度 N> 1 的 排列 中 ， 平 均 游 程 数 是 (N + 1)/2， 其 方差 为 

(N + 1)/12, l 

证 明 利用 “最 大 ”对 应 ， 对 给 定 的 关于 CGF 的 论证 进行 推广 ， 将 得 到 一 个 关于 BGF 的 偏 
微分 方程 。 我 们 把 这 个 结论 留 作 一 个 习题 。 现 在 我 们 考虑 由 同一 个 对 应 关系 导出 的 基于 递 推 
关系 的 推导 方法 : 要 得 到 一 个 k 个 游程 的 排列 ， 把 最 大 元 素 插 入 到 一 个 k 个 游程 的 排列 中 的 一 
个 现 有 游程 的 尾部 有 Kk 种 可 能 , 使 最 大 元 素 “ 破 坏 ” 一 个 k 一 1 个 游程 的 排列 中 的 一 个 现 有 游程 ， 
从 而 使 游程 数 增加 到 k、 有 N - k+ 1 种 可 能 。 这 就 导致 

Ay =(N-K+DAw yay + kA nine 

此 式 和 初始 条 件 4o = 1 及 4wm = 0 一 起 ， 对 N> 0 及 上 > N， 就 完全 确定 了 4w。 

上 式 乘 以 zww 并 对 N 和 K 求 和 则 直接 导出 了 下 面 的 偏 微分 方程 


A,(u, Z) = i = (uA(u, z) + ud - u)A, (u, z)) 





容易 验证 ， 定 理 中 关于 4(w, z) 的 表达 式 满 足 这 个 方程 。 
现在 ， 我 们 像 表 3-6 中 那样 来 计算 均值 和 方差 ， 但 正如 前 面 所 提 到 过 的 ， 需 要 注意 : 使 用 
一 个 指数 BGF 时 要 自动 地 包括 除 以 W!。 这 样 ， 均 值 就 可 由 下 式 给 出 : 
GAWu,Zz)| N 1 _N+l 
au |, ls 2 


我 们 可 以 用 类 似 的 方法 计算 方差 。 | 


[z"] 





w 
N 
Asi 


正如 前 面 所 提 到 的 ， 一 个 排列 中 除 最 后 一 个 游程 外 ， 所 有 游程 都 以 一 个 降落 结束 。 因 而 
定理 6.4 也 隐 含 着 这 样 的 结论 : 一 个 排列 中 降落 数 的 均值 为 (N - 10/2, 方差 为 (N + 1)/12， 相 同 
的 结果 也 可 以 应 用 在 上 升 数 上 。 . 

习题 6.30 ”给 出 一 个 简单 的 非 计 算 性 的 证 明 : 一 个 N 元 素 的 排列 中 上 升 数 的 均值 是 (N - 1/2, 
(提示 : 对 每 个 排列 pip,…pn， 考 虑 由 gq;= N+ 1 一 p; 所 构成 的 “ 补 ”g1q2*…qn。) 

习题 6.31 推广 上 面 的 CGF 变 量 ， 证 明 BGF Auz) = yur” 满足 定理 6.4 中 给 出 的 偏 
微分 方程 。 

习题 6.32 证 明 : 


/N+1 
Ay = > -1)’ k-j)* 
‘Nk a 2 "| j J D 
习题 6.33 证 明 : 对 N>1 有 


x = hu 人 


1< k SN 


x+k-1 


N ) (N> 1) 


递增 子 序列 。 为 CGF 导 出 一 个 显 式 公 式 的 另 一 个 方法 是 为 累积 开销 找 出 一 个 递 推 关系 。 
例如 ， 令 

5(0 = 有 tp 中 过 增 子 序列 数 ] 7 DM 
那么 S; 就 代表 所 有 长 度 为 N 的 排列 中 递增 子 序 列 的 总 数 。 于 是 ， 我 们 发 现 


N-1 
Sy = NS + > | jw-raes 对 N>0 且 S =1 
OC k<N k 


这 是 因为 长 度 为 N - 1 的 排列 有 N 个 拷贝 (所 有 递增 子 序列 在 那个 排列 中 都 出 现 N 次 ) 且 在 分 
开 计 数 时 ， 所 有 递增 子 序列 都 以 最 大 元 素 结束 。 如 果 最 大 元 素 在 第 k + 1 位 置 ， 那 么 所 有 排列 
对 前 k 个 位 置 上 元 素 的 每 一 种 选择 出 现 (N - 1 - 月 ! 次 ( 较 大 元 素 的 每 种 排列 方式 对 应 一 次 出 
现 )， 每 个 最 大 元 素 对 总 数 贡 献 5.。 该 论证 假定 了 空子 序列 是 “递增 的 "， 这 与 我 们 的 定义 是 
一 致 的 。 上 式 除 以 N! 并 对 N 求 和 式 ， 我 们 就 得 到 如 下 函数 方程 : 

(1 - z)S"(z) = (2 - z)S(z) 
其 解 为 


al ep2 
SO) =T zP Tz) 


定理 6.5 (递增 子 序列 ) 在 一 个 NN 元 素 的 随机 排列 中 ， 递 增 子 序列 数 的 均值 为 


Sy _ N i 1 2VN 1/4 
we y (ele aimee N. | 
证 明 这 个 准确 公式 直接 来 自 于 上 面 的 讨论 ， 展 开 此 显 式 公 式 就 可 以 得 到 刚才 给 出 的 生成 
函数 。 
此 外 ， 我 们 可 用 拉 普 拉 斯 法 导出 该 公式 的 渐 近 估计 。 取 相 邻 两 项 的 比值 ， 我 们 有 


aa/eee oe 
天) kt/ \k+1)(k+D! N-k 
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ZEZ, SRE YN 时 ， 就 会 出 现 一 个 峰 。 此 外 ， 和 第 4 章 中 的 几 个 例子 一 样 ， 
Stirling 公 式 提 供 了 局 部 逼近 ， 而 两 个 尾部 可 由 一 个 正 态 副 近来 限定 。 有 关 细 节 可 在 Lifschitz 
和 Pittel[12] 中 找到 。 a 

习题 6.34 ”对 Sw 的 准确 公式 给 出 一 个 直接 的 组 合 推导 。( 提 示 : 考虑 一 个 递增 子 序列 所 有 
可 能 出 现 的 位 置 。) 

习题 6.35 在 一 个 长 度 为 N 的 随机 排列 中 ， 找 出 长 度 为 k 的 递增 子 序列 数 的 EGF 和 一 个 浙 
weit (PHM FNAB). | 

习题 6.36 在 一 个 长 度 为 N 的 随机 排列 中 ， 找 出 长 度 至 少 为 3 的 递增 子 序列 数 的 EGF 和 一 
个 渐 近 估计 。 

峰 和 谷 。 作 为 应 用 堆 序 树 来 分 解 排 列 的 一 个 例子 ， 我 们 现在 要 导出 一 些 结果 ， 以 完善 上 
升 和 游程 的 统计 量 。HOT 树 中 的 结 点 有 三 种 类 型 : 树叶 (两 个 子 结 点 均 为 外 部 子 结 点 的 结 点 )、 
单 又 结 点 (一 个 内 部 子 结 点 和 一 个 外 部 子 结 点 ) 和 二 叉 结 点 (两 个 子 结 点 均 为 内 部 子 结 点 )。 
对 不 同类 型 结 点 的 研究 与 对 排列 中 峰 和 谷 的 研究 有 着 直接 的 联系 (见习 题 6.19)。 此 外 ， 这 些 
统计 量 还 具有 独立 的 意义 ， 因 为 它们 可 用 于 HOT 树 和 BST 树 的 存储 需求 分 析 。 

给 定 一 棵 堆 序 树 ， 其 相应 的 排列 可 以 通过 简单 地 按 中 绎 ( 左 到 右 ) 顺序 列 出 结 点 的 标号 
而 得 到 。 在 这 种 对 应 下 ， 很 明显 HOT 树 中 的 二 叉 结 点 对 应 排列 中 的 一 个 妖 : 从 左 向 右 扫描 ， 
一 个 二 叉 结 点 前 接 其 左 子 树 上 一 个 较 小 的 元 素 ， 后 接 其 右 子 树 上 另 一 个 较 小 的 元 素 。 这 样 ， 
对 随机 排列 中 峰 的 分 析 就 简化 成 了 对 随机 HOT 树 中 二 叉 结 点 数 的 分 析 。 

一 个 大 小 为 N 的 随机 HOT 树 是 由 一 个 大 小 为 的 左 子 树 和 一 个 大 小 为 N - k- 1 的 右 子 树 所 
构成 的 ， 其 中 ，k 值 等 可 能 地 取 自 0 到 N - 1， 因 此 每 种 取 值 的 概率 是 LUN。 这 个 结果 可 以 直接 
看 出 来 〈 一 个 排列 的 最 小 值 假定 了 每 一 个 可 能 的 位 置 是 等 可 能 的 ) 或 通过 HOT-BST 的 等 价 关 
系 看 出 来 。 因 此 ， 均 值 可 用 与 第 5 章 中 为 BST 树 而 研制 的 相同 的 方法 来 计算 。 

例如 ， 一 个 HOT 树 中 二 又 结 点 数 的 均值 满足 下 面 的 递 推 关系 : 

AN -2 
N 





1 
Vy = N (V, + Vy) + (N> 3) 


0< N-1 
这 是 因为 除了 最 小 元 素 是 排列 中 的 第 一 个 或 最 后 一 个 元 素 〈 该 事件 的 概率 是 2N) 外 ， 二 又 结 
点 数 是 左 子 树 中 的 二 叉 结 点 数 与 右 子 树 中 的 二 叉 结 点 数 之 和 再 加 1。 因 此 ， 从 3.3 节 开始 ， 我 
们 已 经 在 多 种 场合 下 见 过 这 种 形式 的 递 推 关系 了 。 上 式 乘 以 z ”并 求 和 ， 就 导出 了 下 面 的 微 
分 方程 

VO=27 ta 

它 的 解 为 
1 z yoy _N-2. 
soy A 
因此 ， 一 个 随机 排列 中 谷 的 平均 数 为 (V - 2)/3， 其 他 一 些 相关 量 的 类 似 结果 也 即 随 之 而 推出 。 


定理 6.6 (排列 与 树 中 结 点 的 局 部 性 质 ) 在 一 个 N 元 素 的 随机 排列 中 ， 谷 、 峰 、 双 升 和 
双 落 的 平均 个 数 分 别 是 


V(z) = 


N-2 、 N-2 | N+l i Ntt 
3 3 6 6 











oO 


0 


在 一 个 大 小 为 N 的 随机 HOT 树 或 BST 树 中 ， 二 又 结 点 、 树 叶 、 左 分 枝 结 点 和 右 分 枝 结 
点 的 平均 个 数 分 别 是 l 
N-2  N+1  N+i N+1 


3 3 ar 








证 明 ”用 类 似 于 上 面 给 出 的 论证 方法 (或 仅 用 定理 5.7) 并 利用 各 个 量 之 间 的 简单 关系 ， 
上 述 结果 都 能 直接 推导 出 来 。 也 可 参见 习题 6.16。 
例如 ， 排 列 中 的 一 个 降落 要 么 是 谷 、 要 么 是 双 落 ， 所 以 双 落 数 的 平均 值 是 
N-1 N-2 N+l 


2 3 6 


再 例如 ， 我 们 知道 一 个 随机 BST 树 中 树叶 的 平均 个 数 是 (N + 1)/3 (或 直接 证 明 ， 就 像 前 面 
对 HOT 树 的 证 明 一 样 )， 且 由 上 面 的 论证 知 二 叉 结 点 的 平均 个 数 是 (N - 2)/3, Bk, FR. A 
分 枝 结 点 等 可 能 的 情况 下 ， 单 叉 结 点 的 平均 个 数 是 
N_XN-2_XN+1_N+l 
3 3 3 a 
习题 6.37 证 明 : 随机 排列 中 谷 和 峰 具 有 相同 的 分 布 。 
习题 6.38 ”假设 叶子 、 单 又 结 点 和 二 又 结 点 所 需 的 空间 分 别 与 co、ci、cz 成 正比 。 证 明 随 
机 HOT 树 和 随机 BST 树 所 需 的 存储 空间 是 ~(co + ci + c2)N/3。 
习题 6.39 在 上 一 题 的 假设 下 ， 证 明 随 机 二 又 Catalan 树 所 需 的 存储 空间 是 ~(co + 2c, + 
cz)NV/4。 
习题 6.40 证明: N 个 0 到 1 之 间 的 随机 实数 (均匀 县 独立 生成 的 ) 的 序列 平均 有 ~N/6 个 双 
升 和 ~N/6 个 双 落 。 导 出 一 个 直接 的 连续 模型 来 证 明 这 个 渐 近 结果 。 
习题 6.41 对 习题 6.19 进 行 推广 ， 证 明 : 在 HOT 树 中 ， 右 分 枝 结 点 和 二 叉 结 点 的 BGF 满 足 
K,(u,z) =1+(1+u)K(u,z) + K’ (u, z) 





因此 


(u-1)z 


l-e 
Ku, z) = — or 
( ) u- et? 


(注意 : 这 个 结果 提供 了 关于 欧 拉 数 的 BGEF 的 另 一 种 推导 ， 因 为 4(w z) =1 + uK(u, z). ) 

表 6-7 总 结 了 前 面 导出 的 结果 和 一 些 我 们 将 要 在 下 面 三 节 中 推导 的 有 关 随 机 排列 各 种 参数 
的 平均 值 。 排 列 是 非常 简单 的 组 合 对 象 ， 我 们 可 以 用 多 种 方法 导出 这 些 结果 ， 但 前 面 的 各 种 
例子 已 充分 表明 ， 使 用 BGF 和 CGF 的 组 合 证 明 尤 其 直接 和 简单 。 接 下 来 ， 我 们 将 利用 这 些 技 
巧 来 分 析 一 些 在 几 种 基本 算法 分 析 中 起 着 重要 作用 的 量 。 


表 6-7 ”排列 性 质 的 分 析 结果 (平均 情形 ) 





指数 CGF O FHR" 
11 y 
左 向 右 最 小 Ia iz x 
a TENEN H 
l-z n l-z E 


MB ae 1 
1-z 


0 
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( 续 ) 
指数 CGF 平均 ([z*]) 
ta) =k eo 1 wep 
k l-z k 
2 k 
tal <k legei) HAN > k) 
1 1 Nel 
游程 2-2)? 2 2 
逆序 z? : N(N-) 
2X1- z) 4° 
递增 子 序列 Ja) sgg N" 
增 子 序 :exp Ha 
3 N-2 
ik, R wot E 
3(1 - z)’ 3 





6.6 逆序 与 插入 排序 


程序 6.2 是 插入 排序 的 一 个 实现 ， 是 一 个 容易 分 析 的 简单 排序 方法 。 在 该 方法 中 ， 我 们 把 
元 素 “ 持 入 ”到 那些 已 经 有 序 的 元 素 中 一 个 正确 的 位 置 ， 将 所 有 较 大 元 素 都 移动 一 个 位 置 以 
腾 出 那个 正确 位 置 。 图 6-6 给 出 了 程序 6.2 对 一 个 排列 示例 的 操作 过 程 ， 图 中 第 i; 行 阴影 部 分 的 
元 素 就 是 在 第 i 次 插入 时 移动 的 元 素 。 

插入 排序 的 运行 时 间 与 ciN + cB + cs 成 正比 ， 其 中 cl/、cs、c 是 与 实现 有 关 的 适当 的 常数 ， 
8B 是 输入 排列 的 一 个 函数 ， 是 a[j+1] :=a[j] 的 执行 次 数 。 插 入 每 个 元 素 时 要 移动 的 元 素 个 
数 是 被 插入 元 素 左 方 大 于 该 元 素 的 元 素 个 数 ， 因 此 我 们 可 以 直接 考虑 逆序 表 。 图 6-6 右 半 部 分 
是 排序 过 程 中 排列 的 逆序 表 。 当 第 ;次 插入 结束 后 ( 见 第 i 行 )， 逆 序 表 中 前 个 元 素 是 零 ( 因 为 
排列 中 前 ;个 元 素 已 经 有 序 ) ， 且 逆序 表 中 下 一 个 元 素 指 出 了 下 一 次 插入 时 将 有 多 少 个 元 素 要 
移动 ， 因 为 它 指 出 了 第 (i + 1) 个 元 素 左边 大 于 该 元 素 的 个 数 。 第 i 次 插入 对 逆序 表 的 影响 只 
是 将 其 第 i 项 变 成 零 。 这 意味 着 当 插 入 排序 运行 于 一 个 排列 时 ， 量 8B 的 值 等 于 逆序 表 中 各 项 数 
据 之 和 一 一 排列 中 逆序 的 总 数 。 


程序 6.2 插入 排序 
a[0] :=-infinity; 
for i := 2 to N do 
begin 
v := afi]; j := i-1; 


while a[j] > v do 

begin alj+1} := alj]; j := 3-1 end; 
a[j+1] := v; 
end 


习题 6.42 ”有 多 少 个 N 元 素 的 排列 恰好 有 1 个 逆序 ? 2 个 逆序 ? 3 个 逆序 ? 

习题 6.43 ”说 明 如 何 修改 播 入 排序 ， 使 之 也 能 计算 与 元 素 的 原始 顺序 相对 应 的 排列 的 逆 
序 表 ? 

正如 前 面 所 提 到 过 的 ， 排列 和 逆序 表 之 间 存 在 着 一 对 一 的 对 应 。 在 任何 逆序 表 q19，…4w 中 ， 
每 一 个 q 必 须 在 0 到 i - 1 之 间 (特别 地 ，qi 总 是 0)。 对 每 一 个 9;， 有 i 个 可 能 的 取 值 ， 所 以 有 N! 
个 不 同 的 逆序 表 。 逆 序 表 在 用 于 分 析 时 更 加 简单 ， 因 为 道 序 表 中 的 数据 是 独立 的 : 每 一 个 4 独 





《AD 
Co 
下 


212 ZOE 





立 于 其 他 项 的 取 值 而 取 ; 个 不 同 的 值 。 


914411221013561138157 002314215539608 
9 144 112210135 6113 8157 002314215539608 
4 W i 12 210135 6113 8157 oM3 14215539608 
1 B12 2 10135 6113 8157 cCMMMMMi 4215539608 
1 4 912W 2 10135 6113 8157 000 0884215539608 
1 20MM 013561138157 0 0oWNNNNBE 2 15539608 
12 4 9100135 61138157 0000005539608 
1 2 4 910121305 61138157 000000 085539608 
1 2 4 5 MN 1138157 00 0 om 39608 
12 4 5 6138157 000 0 oE s 9 6 os 
1245 6 9101 WE 38157 000000 0 oW o 6 os 
1 2 3 UG 15 7 0 o 0 RRR c o s 
123 45 6 8 Wms7 00000 0 oO Mn o s 
1234568 91011121314157 000000000000008 
123456 7 URNS o 0000 0 0 ones 
图 6-6 插入 排序 和 逆序 表 
定理 6.7 GERDA) 具有 K 个 北 序 且 大 小 为 N 的 排列 个 数 是 
N 
[u*] nt Ve 
>p 


1 <k SN 


一 个 NM 元 素 的 随机 排列 平均 有 NGCV 一 1)/4 个 北 序 ， 其 标准 差 为 WOV - 1)(2N + 5)/72。 


证 明 我 们 给 出 利用 PGF 的 推导 方法 ; 一 个 组 合 推导 将 遵循 (几乎 总 是 遵循 ) 相同 的 方式 。 

在 一 个 随机 排列 的 逆序 表 中 ， 第 ;项 数据 可 以 独立 于 其 他 数据 项 以 概率 1/i 取 0 到 i - 1 之 间 
的 每 一 个 值 。 因 此 ， 涉 及 第 N 个 元 素 的 逆序 个 数 的 概率 生成 函数 是 (1 +u + u +t DIN, 
这 个 结果 与 第 N 个 元 素 前 面 的 元 素 的 排列 方式 没有 关系 。 正 如 我 们 在 第 3 章 中 所 讨论 过 的 那样 ， 
独立 随机 变量 的 和 的 PGF 是 各 个 随机 变量 PGF 的 乘积 ， 所 以 在 一 个 N 元 素 的 随机 排列 中 ， 逆 序 
总 数 的 生成 函数 满足 


2 eee N-1 
by (u) = a ee (u) 


也 就 是 说 ， 逆 序数 是 /从 1 到 N、 有 具有 独立 的 均匀 分 布 的 、 具 有 OGF(I +u + w+…+ w RBE 
机 变量 之 和 。 定 理 中 所 述 的 计数 GF 等 于 N! 乘 以 bv(u)。 平 均值 是 单个 平均 值 (0 - 1)/2 的 和 , 方 
差 是 单个 方差 (7 一 1)/12 的 和 。 a 
图 6-7 给 出 了 [xpwGo 的 完整 分 布 。 曲 线 关 于 NGCX - 1/4 RR, ABNOR. ， 它 们 向 着 
中 心 收缩 (不 过 是 缓慢 的 )。 这 种 曲线 可 以 描绘 成 独立 随机 变量 之 和 的 分 布 。 尽 管 这 些 分 布 是 
不 同 的 ， 但 根据 概率 论 中 的 古典 中 心 极限 定理 ， 可 以 证 明 它 们 的 极限 分 布 是 正 态 的 (如 ， 见 
David 和 Barton[2])。 这 在 算法 分 析 中 是 非常 典型 的 ， 但 这 里 我 们 不 做 详细 分 析 。 


推论 ”对 一 个 有 NN 条 记录 (记录 中 的 关键 字 不 同 且 顺序 是 随机 的 ) 的 文件 排序 ， 插 入 
排序 平均 执行 ~N”/4 次 关键 字 比 较 ， 平均 移动 ~N"/4 次 记录 。 


用 CGF 求 解 。 使 用 累积 生成 函数 求 逆 序 的 平均 数 也 具有 启发 意义 ， 因 为 它 可 以 用 作 更 为 
复杂 问题 的 模型 。 考 虑 CGF 


z” 
B(z) = 了 FT 
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正如 前 面 所 提 到 过 的 ，B(z) 中 zwN! 的 系数 是 所 有 长 度 为 N 的 排列 的 逆序 总 数 ， 因 而 B(z) 是 一 个 
排列 中 逆序 平均 数 的 OGF。 上 面 所 给 出 的 论证 等 价 于 从 关于 逆序 的 “水 平 ”生成 函数 中 计算 
累积 开销 ; 我 们 现在 考虑 另外 一 种 直接 使 用 CGF 的 推导 方法 。 


0.333 





0.167 





0 N(N — 1)/4 N(N — 1)/2 


图 67 赣 序 的 分 布 ，3<N< 60 (kh 按 | 2 ] 的 比例 标 度 ) 


利用 “最 大 ”对 应 关系 ， 所 有 长 度 为 pl 的 排列 都 对 应 于 长 度 为 pl + 1 的 通过 在 第 Kk 和 第 k + 1 
个 元 素 之 间 放 和 人 元素 Pl + 1 而 形成 的 lpl + 1 个 排列 (k 在 0 到 lpl 之 闻 )， 这 样 的 一 个 排列 的 逆序 数 
比 p 多 lpl - k 个 ， 这 就 导出 了 下 面 的 表达 式 


B lpl-k 
khi 2, ee oun 1)! 


对 k 求 和 ， 得 








piel | pl+l zoel 
noe AT :Z| 2 J 


第 一 个 和 是 zB(z)， 第 二 个 和 很 容易 计算 ， 因 为 它 只 依赖 于 排列 的 长 度 ， 所 以 长 度 为 的 k! 个 排 
列 可 关于 每 个 k 累 加 起 来 ， 从 而 得 到 


B(z) = BDO+T De dT > 


所 以 ， 正 如 我 们 所 期 望 的 那样 ， 关 于 N(N - 1)/4 的 生成 函数 为 B(z) = 27/(2(1 - 2) )。 

在 本 章 的 后 面 我 们 还 将 学 习 逆序 表 的 其 他 性 质 ， 因 为 它们 能 够 描述 在 某 些 其 他 算法 分 析 
中 所 产生 的 排列 的 其 他 性 质 。 特 别 地 ， 我 们 将 考虑 逆序 表 中 零 的 个 数 ， 以 及 最 大 元 素 的 值 。 

习题 6.44 导出 pm 所 满足 的 一 个 递 推 关系 ， 其 中 pm 是 一 个 NN 元 素 随机 排列 恰 有 Kk 个 逆序 的 
概率 。 

习题 6.45“” 求 关于 所 有 长 度 为 N 的 对 合 中 逆序 总 数 的 CGF。 

习题 6.46 证明 : 当 N 充 分 大 时 ， 对 任意 固定 的 k， te nie 

Shellsort。 程 序 6.3 给 出 了 对 插入 排序 一 个 实用 的 改进 ， 叫 做 Shellsort (Shell 排 序 )， 

过 对 文件 进行 多 趟 扫描 ， 其 中 每 一 趟 对 间隔 为 的 元 素 所 构成 的 x 个 独立 的 子 文件 (每 一 ie 

小 约 为 Na ) 进行 排序 ， 从 而 使 运行 时 间 减 少 到 大 大 低 于 N。 控 制 排序 的 “ 增 量 ”h [t+]， 
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h[t-1]，….， h[1] 必 须 形成 一 个 结束 于 1 的 递减 序列 。 人 们 已 做 了 很 大 努力 去 找 一 个 增 
量 的 最 佳 序列 ， 但 几乎 还 没有 得 到 什么 分 析 结 果 : 尽管 Shellsort 只 是 插入 排序 的 一 个 简单 的 扩 
展 ， 但 这 个 排序 已 被 证 实 是 最 难 分 析 的 。 对 Shellsort 平 均 情 况 性 能 的 完整 描述 还 是 一 个 没有 解 
决 的 问题 。Yao[19] 曾 利 用 类 似 于 前 面 的 技巧 做 过 一 个 (h, k, 1) Shellsort 的 分 析 ， 但 结果 和 方 
法 都 变 得 复杂 得 多 。 对 一 般 的 Shellsort， 即 使 函数 形式 也 明显 地 依赖 于 增 量 序列 。 

程序 6.3 Shellsort (Shell 排 序 ) 


for h := h(t], h{t-1], ... , h[1] do 
for i := h+1 to N do 
begin 
v := afi); j := i-1; 
while a[j] > v do 
begin a[j+1] := a[j]; j := j-1 end; 
a[j+1] := v; 


end 


2 一 有 序 排列 。 考 虑 对 h 只 取 值 2 和 1 的 情况 时 Shellsort 的 分 析 是 很 有 趣 的 ， 因 为 这 种 分 析 与 
第 5 章 树 中 路 径 长 度 的 分 析 有 着 密切 的 联系 。 它 与 归并 算法 是 等 价 的 : 对 具有 奇 编 号 和 偶 编 号 
位 置 上 的 文件 独立 排序 (利用 插入 排序 )， 然 后 用 插入 排序 对 所 得 的 排列 再 进行 排序 。 这 样 由 
两 个 相互 间隔 的 已 排序 的 排列 组 成 的 排列 ， 叫 做 2- 有 序 排列 。2- 有 序 排 列 的 性 质 在 其 他 归并 
算法 的 研究 中 也 很 重要 。 因 为 Shellsort 的 最 后 一 趟 (h = 1 时 ) 就 是 插入 排序 ， 其 平均 运行 时 间 
取决 于 2- 有 序 排列 中 的 平均 逆序 数 。 表 6-8 给 出 了 3 个 2- 有 序 排列 的 实例 以 及 它们 的 逆序 表 。 


表 6-8 3 个 2- 有 序 排列 及 其 逆序 表 


4 1 5 | 2 6 3 9 F 0 3 B H TOR 14 19 17 20 18 
0 1 0 2 Q as Q-A ~ 2 0 1 0 2 0 2 0 1 0 2 
1 4 2 5 3 6 By 7 98 Re TO, St Na ep 15 18 16 19 20 
oS ~- T° @ 2 OE ¢° or g 1 0 2 0 0 1 0 2 0 0 
4 t S&S 2 6 3 7-8 12 9 B 10 4 HN 15 17 16 18 20.. 19 
0 1 0 2 0 3 0 0 1 0 2 0 3 0 1 0 0 1 


设 S(z) 是 对 2- 有 序 排列 计数 的 OGF。 显 然 ， 


2N\w 1 
so- Sy} “Ik 


但 我 们 将 考虑 另 一 个 揭示 结构 的 计数 方法 。 图 6-8 说 明了 这 样 的 事实 : 2- 有 序 排列 对 应 于 一 个 
N x N 网 格 中 的 路 径 ， 这 些 路 径 类 似 于 第 5 章 所 描述 的 关于 树 的 “ 赌 徒 破产 ”表示 法 中 的 那些 
路 径 。 从 左上 角 开 始 ， 如 果 在 一 个 奇 编 号 位 置 ， 则 向 右 移 动 ， 如 果 ; 在 一 个 偶 编号 位 置 ， 则 向 
下 移动 。 由 于 向 右 有 N 步 ， 向 下 有 N 步 ， 因 此 移动 将 结束 于 右 下 角 。 








图 6-8 关于 表 6-8 中 2- 有 序 排列 的 格 路 径 
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这 里 ， 与 第 5 章 中 所 讨论 的 一 样 ， 没 有 碰 到 对 角 线 的 路 径 对 应 于 树 ， 并 由 如 下 生成 函数 来 

计数 : , 
zT(z)= G(z) = (1-v1-4z)/2 
对 2- 有 序 排列 而 言 ， 触 及 对 角 线 的 限制 被 去 掉 了 。 但 是 ， 任 何 穿越 网 格 的 路 径 必 须 在 开始 时 
触及 对 角 线 ， 这 就 导致 对 2- 有 序 排列 计数 的 OGEF 的 符号 方程 : 
S(z) = 2G(z)S(z) +1 

就 是 说 ， 任 何 穿越 网 格 的 路 径 可 以 从 一 个 除 端 点 之 外 不 触及 对 角 线 的 初始 部 分 后 接 一 条 一 般 
的 路 径 而 唯一 地 构造 出 来 。 其 中 因子 2 说 明 初 始 部 分 既 可 能 在 对 角 线 的 上 方 ， 也 可 能 在 对 角 线 
的 下 方 。 正 如 我 们 所 期 望 的 那样 ， 公 式 可 化 简 为 


1 
1T-2G() 1- RE 4z) 1-4z 


Knuth[10] (再 参看 Vitter 和 Flajolet[16]) 证 明了 这 一 相同 的 一 般 结构 可 用 于 书写 关于 逆序 的 
BGF 的 显 式 表达 式 ， 其 最 终结 果 为 : 累积 开销 (长 度 为 2N 的 所 有 2 一 有 序 排列 中 的 逆序 总 数 ) 
就 是 V4” - :。 该 论证 基于 如 下 观察 : 2- 有 序 排 列 中 的 逆序 数 等 于 相应 的 格 路 径 与 “下 - 右 - 
下 -~- 右 ……” 对 和 角 线 之 间 的 方 格 数 。 


定理 6.8 (2~ 有 序 排列 中 的 逆序 数 ) 长 度 为 2N 的 随机 2- 有 序 排列 中 的 平均 北 序 数 为 
war) ~ [0/128 (NY 


证 明 ”导出 这 一 简单 结果 的 计算 是 直接 的 但 也 是 很 复杂 的 ， 我 们 把 它 留 作 习 题 。 E757 
中 ， 我 们 还 将 在 更 一 般 的 场合 下 提 及 这 个 问题 。 

习题 6.47 证 明 : 2- 有 序 排列 中 的 逆序 数 等 于 相应 的 格 路 径 与 “下 - 右 - 下 一 右 …………” 对 
角 线 之 间 的 方 格 数 。 

习题 6.48 设 7 是 所 有 2- 有 序 排列 的 集合 ， 定 义 BGF 为 


P(u,z) = ween 





| pl! 

用 同样 的 方法 定义 CO(u, z)， 但 限制 集合 是 由 这 样 的 2- 有 序 排列 所 构成 的 : 其 对 应 的 格 路 径 除 

端点 外 不 触及 对 角 线 。 此 外 ， 类 似 地 定义 S(u, z) 和 T(u, z)， 但 限制 2- 有 序 排列 对 应 的 格 路 径 

除 端点 外 整个 位 于 对 角 线 的 上 方 。 证 明 : P(u,z)= 1/1 - Olu, 2))KS(u, 2) = (1 ~ Tl(u,z))。 
习题 6.49 ”证明 T(u,z) = uzS(u, uz) 和 Q(u, uz) = T(u, uz) + T(u, z). 


习题 6.50 利用 前 两 个 习题 的 结果 证 明 
S(u, z) = uzS(u, z)S(u, uz) +1 


P(u, z) = (uzS(u, uz) + 2S(u, z))P(u, z) +1 
习题 6.51 利用 前 面 习题 的 结果 证 明 


z 
Pu, 2) = GT aye 


推论 ”对 一 个 N 元 素 的 文件 进行 (2, 1) Shell sort 所 用 比较 的 平均 次 数 是 Nz18+ Xx/128 
Ni 4+O(N) 。 
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证 明 假设 X 是 偶数 。 第 一 趟 是 由 两 个 含有 NM/2 个 元 素 的 独立 的 排序 所 构成 的 ， 因 而 涉及 
2((N/2)(N/2 - 1)/4) = N7/8 + O(V) 次 比较 ， 并 留 下 一 个 随机 2- 有 序 文件 。 于 是 在 第 二 趟 中 又 用 
T Jr/128N2 次 比较 。 

当 和 是 奇数 时 有 相同 的 渐 近 结果 。 因 此 ， 尽 管 (2,1) ot 
但 它 的 比较 次 数 是 插入 排序 的 一 半 。 

习题 6.52 给 出 一 个 3- 有 序 排列 中 平均 逆序 数 的 一 个 浙 近 公式 ， A 
Shellsort 的 情况 。 推 广 这 一 结果 以 估计 (h, 1) Shellsort 开 销 的 主 项 以 及 当 使 用 h 的 最 佳 值 时 的 
渐 近 开销 (作为 N 的 一 个 函数 )。 

习题 6.53 分 析 如 下 排序 算法 : 给 定 一 个 要 排序 的 数组 ， 对 奇数 位 置 和 偶数 位 置 上 的 元 
素 进 行 递归 排序 ， 然 后 用 插入 排序 对 所 得 的 2- 有 序 排列 进行 排序 。 当 NN 为 何 值 时 ， 该 算法 比 
第 1 章 中 的 纯 递 归 Quicksort 所 用 的 平均 比较 次 数 要 少 ?9 


6.7 左 向 右 最 小 值 与 选择 排序 


求 一 个 数组 中 最 小 元 素 的 平凡 算法 是 从 左 向 右 扫 描 整 个 数组 ， 跟 踪 当 前 所 找到 的 最 小 值 。 
通过 连续 地 求 最 小 值 ， 导 致 另外 一 个 叫做 选择 排序 (selection sort) 的 简单 排序 方法 ， 见 程序 
6.4。 图 6-9 给 出 了 选择 排序 对 我 们 的 样本 文件 操作 的 图 示 。 此 外 ， 左 边 的 图 表示 排列 ， 右 边 的 
图 表示 相应 的 逆序 表 。 





程序 6.4 选择 排序 

for j := 1 to N do 

begin 

v := infinity; k := j; 

for i := j to N do 
if a[i] < v then 
begin v := a[i]; k := i end; 

t := a[j]; a[j] := alk]; alk] := t; 

end; 
9 144 112210135 6113 8157 0 ws 06 0 8 
9144 112210135 6113 8 715 0 0627 0 
974112210135 6113 8 1415 0 23) 0 44 0 SUSI] HS o 0 
9741122108 5 6113 131415 owa gs 0 SASS 4-9 0 0 0 
97413 2108 5 6 1112131415 owsa 0 B40 0 000 
974132108 5 6 1112131415 0 TRS o BEM 0 0000 
97413 2 6 8 § 101112131415 0 Wasa o 00000 
57413 26 8 9 101112131415 o 0 SNS 00000000 
5§ 7413 2 6 8 9 101112131415 o 0 BBP FH 00000000 
§ 641327 8 9 101112131415 0 0B SBM 000000000 
5241367 8 9 101112131415 0oWSBoo000000000 
32415 67 8 9 101112131415 ofoBo00000 00000 
32146567 8 9 101112131415 oVZoo0000000 0000 
1234567 8 9 101112131415 000000000000000 
1234567 8 9 101112131415 000000000000000 


图 6-9 选择 排序 与 左 向 右 最 小 值 
为 了 分 析 选 择 排序 ， 我 们 首先 需要 分 析 在 一 个 随机 排列 中 “ 求 最 小 值 ”的 算法 : 程序 6.4 
中 外 层 循 环 的 第 一 次 迭代 (7 = 1)。 至 于 插入 排序 ， 此 算法 的 运行 时 间 可 以 用 N 和 一 个 其 值 取 
决 于 特定 排列 的 量 来 表示 ， 在 此 程序 中 是 “当前 最 小 值 ” 被 修改 的 次 数 ( 变量 v 的 值 在 程序 6.4 
中 被 改变 的 次 数 )。 这 恰好 是 排列 中 左 向 右 最 小 值 数 。 
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这 个 量 借助 于 逆序 表 很 容易 分 析 : 正如 上 面 所 观察 到 的 ， 在 逆序 表 4q19，…4qw 中 ， 每 一 个 
4; = i ~ 1 的 项 都 对 应 一 个 左 向 右 最 小 值 ， 这 是 因为 它 左边 的 所 有 元 素 都 比 它 大 。 因 此 、 逆 序 
表 中 每 一 项 都 是 一 个 概率 为 1/i 的 左 向 右 最 小 值 ， 其 取 值 独立 于 其 他 项 ， 所 以 平均 值 为 2 <ie 
ii= Hv。 对 此 论证 稍 加 推广 ， 即 可 得 到 PGF。 


定理 6.9 ( 左 向 右 最 小 值 的 分 布 ) ”具有 Kk 个 左 向 右 最 小 值 的 N 个 元 素 的 排列 是 用 第 一 类 
Stirling 数 来 计数 的 : 


N k 
i | =[u julu +1) (u+ N-1) 


一 个 N 元 素 的 随机 排列 平均 有 Hn 个 左 向 右 最 小 值 ， 其 方差 是 Hy - Aye 


证 明 考虑 一 个 N 元 素 的 随机 排列 中 关于 左 向 右 最 小 值 数 的 概率 生成 冰 数 Pxx)。 与 前 面 一 
样 ， 我 们 可 以 将 其 分 解 成 两 个 独立 的 随机 变量 : 一 个 作为 N - 1 个 元 素 的 随机 排列 (其 PGF 为 
Py. (ww))， 另 一 个 作为 最 后 那个 元 素 的 贡献 (其 PGF 为 (N - 1 + uw/N， 这 是 因为 最 后 那个 元 素 
以 概率 LN 使 左 向 右 最 小 值 的 个 数 增 1， 否 则 增 0)。 因 此 我 们 有 : 





Pu) = Noltup (u) 
并 且 ， 和 前 面 一 样 ， 我 们 通过 从 简单 概率 生成 函数 (z +k- 1)/k 中 累加 均值 和 方差 来 求 得 左 向 
右 最 小 值 的 均值 和 方差 。 计 数 GF 等 于 N!PN(W)。 | 


用 CGF 求 解 。 和 以 往 一 样 ， 我 们 引入 指数 CGF 


z” 
B(z) = PAT 


AMBO ANTREAAN. 

像 以 前 一 样 ， 我 们 可 以 根据 组 合 定义 直接 导出 一 个 函数 方程 ， 在 这 个 实例 中 是 从 上 方 使 
用 “最 后 ”对 应 。 在 大 小 为 pl + 1、 对 应 于 一 个 给 定 排列 p 的 ip! + 1 个 排列 中 ， 其 中 的 一 个 以 1 
结束 (因此 左 向 右 最 小 值 比 p 多 一 个 ), 而 其他 Ip! 个 不 以 1 结束 (因此 左 向 右 最 小 值 数 与 p 相 同 )。 


o- ao abl * Dipl oi 


zp 
- 2) On oa 


= 2B(Z) + 4 dep +1) 


= 2B(z) +n} 
l-z 


因此 解 为 
1 1 
BO Te 


这 正 是 我 们 所 期 望 的 关于 调和 数 的 生成 函数 。 
下 面 ， 我 们 将 考虑 如 何 扩展 这 一 推论 ， 这 只 需 稍 微 再 做 一 点 工作 ， 以 给 出 一 个 描述 整个 
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分 布 的 指数 BGF 的 显 式 表达 式 。 
习题 6.54 设 P, 是 一 个 具有 个 左 向 右 最 小 值 的 N 元 素 随 机 排列 1 的 概率 。 给 出 Pm 所 满足 的 
第 一 类 Stirling 数 。 继 续 上 面 的 讨论 ， 我 们 从 


Mp) z” 


B(u,z)= > Dr rodent?" 


开始 ， 其 中 pw 是 一 个 具有 K 个 左 向 右 最 小 值 的 MX 元 素 随 机 排列 的 概率 。 用 与 上 面相 同 的 组 合 结 
构 导 出 如 下 式 子 





yr Ipl+l MP) yz Ipl+1 


Z Iplu 
B,D) = EN dp! & (pl+b! 


关于 z 微 分 ， 我 们 有 


uP az ipi uz Ipi 


Blu) = Bi ipl! DTE D! 


= uB(u, z) + zB (u, Z) 

解 出 8.(u, z)， 我 们 将 得 到 一 个 简单 的 一 阶 微分 方程 
B,(u,z) = —— Btu, z) 

l-z 


其 解 为 
1 
B(u,z)= nE 
(因为 8(0,0) = 1)。 对 zx 求 微分 ， 然 后 在 & = 1 处 求解 ， 即 得 到 我 们 所 期 望 的 关于 调和 数 的 OGF。 
展开 
u(u +1) 4 ulu + Du +2) 3 pee 


u 
Blu,z)=14 2+ 3! 


又 得 到 定理 6.9 中 所 述 的 第 一 类 Stirling 数 的 表达 式 。 

BGF Bu, z) = (1 - z “是 我 们 在 第 3 章 中 所 见 过 的 一 种 古典 型 。 正 如 我 们 将 要 在 下 面 所 看 
到 的 ， 具 有 恰好 k 个 左 向 右 最 小 值 的 N 元 素 的 排列 数 等 于 恰好 有 个 圈 的 N 元 素 的 排列 数 。 二 者 
都 由 第 一 类 Stirling 数 来 计数 ， 因 此 有 时 也 把 它们 叫做 Stirling“ 圈 ” 数 。 其 分 布 由 图 6-10 和 表 
6-9 所 示 。 1 


习题 6.55 直接 证 明 DR Me 。 


表 6-9 ” 左 向 右 最 小 值 及 轿 的 分 布 (第 一 类 Stirling 数 ) 








N} k> 1 2 3 4 5 6 7 8 9 10 
“1 1 

2 1 1 

3 2 3 1 

4 6 11 6 1 

5: 24 50 35 10 1 

6 120 274 225 85 15 1 


( 续 ) 
N} k> 1 2 3 4 5 6 7 8 9 10 
7 720 1764 1624 "35 175 21 1 
8 5040 13068 13132 6769 1960 322 28 1 
9 40320 109584 118124 67284 22449 4536 546 36 1 
10 362880 1026576 1172700 723680 269325 63273 9450 870 45 1 





s- 


0.333 





0.167 





图 6-10 左 向 右 最 小 值 及 圈 的 分 布 (第 一 类 Stirling 数 ) 


选择 排序 。 在 图 6-9 中 ， 很 明显 第 i 步 之 后 ， 逆 序 表 中 最 右边 的 i 个 元 素 均 为 0〈， 但 对 逆序 表 
中 其 他 元 素 的 影响 就 比较 难 解 秋 了。 其 原因 是 选择 排序 中 的 各 趟 是 相互 独立 的 : 例如， 如果 
在 一 次 迭代 中 左 向 右 最 小 值 是 个 较 小 的 数 的话 ， 那 么 我 们 可 期 望 下 一 次 迭代 中 左 向 右 最 小 值 
也 是 个 较 小 的 数 。 运 行 时 间 中 的 “ 主 ”项 是 if 语 句 的 执行 次 数 ， 很 容易 证 明 对 每 个 输入 的 排 
列 ， 该 执行 次 数 是 【了 ] ;或 者 说 如 果 记录 很 大 时 ， 执 行 次 数 是 两 个 记录 交换 的 次 数 ， 很 明显 
对 每 个 输入 的 排列 ， 该 次 数 是 N - 1. 

在 记录 非常 大 的 应 用 中 ， 交 换 记录 的 开销 在 运行 时 间 上 起 支配 地 位 。 因 为 选择 排序 执行 
交换 的 可 能 次 数 最 小 ， 所 以 它 是 这 类 应 用 中 的 一 个 可 选 方法 。 

定理 6.10 (选择 排序 ) 对 随机 顺序 的 互 异 关键 字 的 N 个 记录 的 文件 排序 ， 选 择 排序 平 

均 执行 ~N”/2 次 关键 字 上 比较， 平均 保存 关键 字 值 ~NInN 次 ， 平 均 移动 记录 ~N 次 。 


证 明 ” 见 上 面 的 讨论 。 在 程序 6.4 的 运行 时 间 中 ， 唯 一 的 变量 (独立 于 排列 的 量 ) 是 整个 
排序 过 程 中 所 磁 到 的 右 向 左 最 大 值 的 总 个 数 : 即 让 语句 为 真 的 次 数 。 对 于 大 记录 ， 这 段 代码 
会 被 修改 成 保存 一 个 关键 字 值 和 一 个 记录 的 下 标 ， 所 以 开销 既 不 被 确切 地 解释 成 关键 字 的 比 
较 ， 也 不 解释 成 一 个 记录 的 移动 。 

我 们 可 以 通过 定义 开销 与 排列 之 间 的 下 述 对 应 关系 来 导出 这 个 总 个 数 的 平均 值 : 给 定 N - 
1 个 元 素 的 一 个 排列 ， 通 过 对 该 排列 的 头 部 插入 1、 再 将 其 他 每 个 元 素 增 1、 最 后 将 其 他 每 个 元 


340 
l 
347 





w 
A 
oo 


0 E A 


素 与 1 交换 位 置 而 构造 出 N 个 N 元 素 的 排列 。 例 如 ， 
15234 51234 25134 #35214 45231 
都 与 4 1 2 3 对 应 。 也 就 是 说 ， 如 果 上 述 排列 中 的 任何 一 个 是 选择 排序 算法 中 的 初始 输入 ， 
那么 当 一 次 迭代 结束 后 ， 其 结果 都 将 是 1 5 2 3 4， 对 于 随后 的 迭代 ， 它 与 4 1 2 3 是 相同 的 。 这 
种 对 应 关系 立即 隐 含 了 
By = By. + Hy =(N+1)H, -N 


更 具体 地 说 ， 设 cost(p) 表 示 一 个 给 定 排列 p 的 这 种 总 个 数 的 开销 ， 并 考虑 CGF 


ipi 
B(z) = D> 至 ,zy = 名 co Ore 
0 


上 述 对 应 关系 表明 该 算法 在 下 述 意 义 下 具有 不 变 的 行为 :每 个 排列 第 一 趟 的 开销 为 Xp)， 然 
后 ， 如 果 我 们 考虑 第 一 趟 的 结果 (适用 于 所 有 Ipl! 种 可 能 的 输入 )， 每 个 大 小 为 pl — 1 的 排列 都 
现 相 同 的 次 数 。 这 就 导出 了 解 


p1 
B(z) = Your DOTE TET 


= Lm +B) 
l-z l-z 

因此 ，B(z) = In(1/(1 - z))/(1 - 好， 是 关于 调和 数 部 分 和 的 生成 函数 。 a 

注意 ， 这 里 我 们 不 具备 趟 次 间 的 独立 性 ， 所 以 上 述 技巧 不 能 用 来 获得 方差 或 这 种 分 布 的 
其 他 性 质 。 这 一 点 既 微妙 但 又 很 重要 。 关 于 右 向 左 最 小 值 ， 我 们 可 以 很 容易 地 把 CGF 的 推导 
转换 成 关于 BGF 的 推导 (能够 得 到 方差 )， 但 上 述 论证 并 没有 这 样 扩展 。 缺 少 独立 性 似乎 使 这 
个 问题 几乎 难以 应 付 : 直到 1988 年 ， 当 Yao[18] 的 一 个 巧妙 分 析 证 明了 方差 为 OUW ) 之 后 ， 这 
个 问题 的 空白 才 被 填 上 。 

习题 6.56 指定 并 分 析 这 样 一 个 算法 ， 它 从 左 向 右 扫描 ， 并 确定 一 个 数组 中 的 两 个 最 小 
元 素 。 

习题 6.57 若 存 取 记 录 的 开销 是 存 取 关键 字 开 销 的 100 倍 ， 且 二 者 相对 其 他 开销 都 很 大 的 
情况 下 ， 当 为何 值 时 ， 选 择 排序 比 插入 排序 要 好 ? 

习题 6.58 ”假定 “交换 ”的 开销 是 “ 存 取 记录 ”开销 的 两 倍 时 ， 关 于 Quicksort 和 选择 排 
序 回答 前 面 的 间 题 。 

习题 6.59 考虑 选择 排序 对 链表 的 一 个 实现 ， 每 次 迭代 时 ， 剩 余 的 最 小 元 素 是 通过 扫 措 
“输入 ” 表 而 找到 的 ， 然 后 将 其 从 该 表 中 删 掉 并 追加 到 一 个 “输出 ” 表 中 。 分 析 此 算法 。 

习题 6.60 ”假设 要 排序 的 N 个 项 实际 上 由 NN 个 字 的 一 些 数组 组 成 ， 其 中 每 个 数组 的 第 一 个 
字 是 排序 的 关键 字 。 就 我 们 目前 所 见 到 的 4 种 基于 比较 的 方法 (Quicksort、Mergesort、 插 入 排 
序 和 选择 排序 ) 中 ， 哪 一 个 最 适合 这 种 情况 ?就 输入 数据 的 量 而 言 ， 该 问题 的 复杂 性 是 多 少 ? 


6.8 图 与 原 位 排列 


在 某 些 情形 下 ， 可 能 需要 把 一 个 数组 交换 “到 位 ”。 正 如 6.2 节 中 所 描述 的 ， 可 以 设计 一 个 
排序 算法 间接 地 引用 记录 ， 求 出 一 个 能 规定 如 何 进 行 排列 的 排列 ， 而 不 是 真 的 重新 排列 这 些 
记录 。 这 里 ， 我 们 从 另 一 角度 来 考虑 重新 排列 是 如 何 被 排列 到 位 的 。 请 看 下 面 的 一 个 例子 : 





AE A 221 





下 标 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
输入 关键 字 29 41 77 26 58 59 97 82 12 44 63 31 53 23 93 
排列 9 14 4 1 12 2 10 13 5 6 11 3 8 15 7 
这 就 是 说 ， 要 将 数组 排 成 有 序 的 ，a[ 9 ] 必须 移 到 位 置 1、a[ 14] 移 到 位 置 2、a[4] 移 到 位 置 
3， 依 此 类 推 。 完 成 这 项 任务 的 一 种 方法 是 : 开始 时 先 把 a[ 11] 保 存 到 一 个 寄存 器 中 ， 然 后 令 
a[1] 等 于 afpf1]]， 置 p[1] 为 3， 依 此 类 推 ， 直 到 p[j1 变 成 1 为 止 ， 此 时 把 保存 的 值 放 入 
a[j]。 然 后 对 每 个 还 没有 移动 过 的 元 素 重 复 上 述 过 程 ， 但 如 果 我 们 用 同样 的 方法 排列 数组 p， 
那么 我 们 会 很 容易 地 识别 那些 需要 移动 的 元 素 ， 如 程序 6.5 所 示 。 
程序 6.5 ” 原 位 排列 
for i := 1 to N do 
if p[i] <> i then 
begin 
t := a[i]; k := i; 
repeat 
j := k; alj] := alpljll; 
k := p[j]; p[j] := j; 
until k = i; 
a[j] := t 


end; 
end; 


在 上 面 的 例子 中 ， 首 先 a{ 9 1=12 被 移 到 位 置 1， 然 后 a[5 1=58 被 移 到 位 置 9 ， 然 后 
af[12]=31 被 移 到 位 置 5， 然 后 ar 3 ]=77 被 移 到 位 置 12 ， 然 后 a[ 4]=26 被 移 到 位 置 3， 然 后 
原来 在 位 置 1 上 的 29 被 放 入 位 置 4。 与 此 同时 ， 为 反映 排列 中 的 这 些 移动 ， 将 pP[1] 置 为 1， 
p[9] 置 为 9， 依 此 类 推 。 注 意 ， 当 p[i]=i 时 ， 程序 中 的 循环 将 什么 也 不 做 ， 所 以 该 程序 对 
任何 元 素 的 移动 都 不 会 超过 一 次 。 

该 程序 的 内 部 循环 送 代 了 多 少 次 ?显然 ， 本 身 实际 上 
以 一 种 相当 简明 方式 展示 了 圈 的 概念 。 P E E RINA TEMA, 因为 一 定 的 额外 
得 记 工 作 量 与 每 个 围 都 有 联系 。 因 此 ， 这 个 量 可 以 在 1 (例如 ， 在 排列 2 3 4 …N1 中 ) BIN (A 
如 在 排列 1 2 3 …N 中 ) 内 变化 ， 但 结果 证 明 这 个 量 的 平均 值 并 不 是 很 大 。 


定理 6.11 (WAF) 在 一 个 随机 排列 中 ， 图 数 的 分 布 与 左 向 右 最 小 值 数 的 分 布 是 相同 
的 ， 并 且 可 由 第 一 类 Stirling 数 给 出 。 一 个 随机 排列 中 的 平均 转 数 是 有 Hv， 其 标准 差 为 
Hy- HẸ, 


证 明 ”在 6.1 节 中 我 们 已 经 讨论 过 这 样 的 事实 : 根据 基本 对 应 关系 这 两 个 分 布 是 相同 的 。 
为 了 对 此 给 出 一 个 解析 性 的 证 实 ， 我 们 给 出 一 个 直接 基于 二 元 生成 函数 


Bw, z) = yw" w”z Alp) 
的 分 析 ， 其 中 XD) 是 p 中 国 的 个 数 。 

和 以 前 一 样 ， 可 以 根据 组 合 定义 直接 导出 一 个 函数 方程 。 给 定 一 个 排列 p， 我 们 可 以 通过 
在 每 个 圈 (包括 “ 空 ” 圈 ) 中 的 每 个 位 置 加 入 元 素 Ipl + 1 来 建立 pl + 1 个 大 小 为 Pl + 1 的 排列 。 
当然 ， 在 这 些 排 列 中 ， 有 一 个 排列 比 p 多 一 个 圈 ， 有 IlpI! 个 排列 与 p 有 相同 个 数 的 图 。 这 个 对 应 
关系 从 结构 上 来 讲 与 我 们 为 左 向 右 最 小 值 建立 的 对 应 关系 是 一 样 的 。 利 用 和 前 面 所 给 的 完全 
一 样 的 论证 方法 ， 我 们 得 到 的 生成 函数 当然 是 和 关于 左 向 右 最 小 值 个 数 完全 一 样 的 生成 函数 : 

Blu, z) = 








i 
0-2" 


© 
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因此 ， 它 们 的 分 布 是 相同 : 平均 值 如 前 所 述 ; Aa A kA ANTR HEA h E 3 


Stirling 数 给 出 ， 等 等 。 a 
推论 平均 移动 ~N + lnN 次 数据 可 以 把 一 个 文件 排列 到 位 。 
证 明 见 上 面 的 讨论 。 a 


en ee OL 长 有 助 于 我 们 更 详细 地 分 析 程序 6.5。 例如 ， 我 们 可 能 想 知 道 
是 否 值得 修改 此 程序 以 使 其 在 p[i]=i 时 不 进行 任何 操作 。 从 6.4 节 中 关于 带 有 围 长 限制 的 排 
列 的 计数 结果 知道 ， 对 一 个 随机 排列 而 言 ， 这 种 情况 至 少 发 生 一 次 的 概率 是 1 - Le， 但 是 我 
们 期 望 它 会 发 生 多 少 次 呢 ? 最 终结 果 表 明 ， 平 均 而 言 ， 一 个 随机 排列 中 单元 素 圈 的 个 数 是 1， 
因而 我 们 可 以 分 析 有 关 轿 长 分 布 的 其 他 事实 。 

单元 素 圈 。 为 了 和 前 面 的 其 他 推导 相 比较 ， 我 们 利用 前 面 的 组 合 构造 和 CGF 


ipl 
B(z) = inn 


来 求 出 单元 素 圈 的 平均 个 数 ， 其 中 rp) 是 一 个 排列 p 中 单元 素 圈 的 个 数 ， 因 而 我 们 所 要 的 答案 

就 是 [z*]B(z)。 根 据 前 面 的 构造 ， 长 度 为 lpl 的 排列 可 以 被 分 成 大 小 为 pl 的 组 ， 组 中 每 一 个 排列 

对 应 一 个 长 度 为 pl - 1 的 排列 gq。 在 对 应 于 g 的 组 中 ， 其 中 的 一 个 有 tq) + 1 个 单元 素 圈 ， 其 中 

的 wp) 个 有 Tp) - 1 个 单元 素 圈 ， 其 余 的 有 Tlp) 个 单元 素 圈 ， 因 而 对 应 于 gq 的 所 有 排列 的 单元 素 
Tg)+1+T(9)(5(q) -D+(lpl-l1-7T(q))r(q)=1+lglz(gq) 

所 以 


.Bl(z) = OIC dor 


对 此 公式 微分 ， 将 得 到 如 下 简单 形式 


B'(z) = er 7 + Dial ot T 


- 4 BW 
l-z 


所 以 正如 我 们 所 期 望 的 那样 ，B'(z) = 1/(1 -27KB = 1 - 2). 
长 度 为 k 的 圈 。 利 用 BGF， 我 们 可 以 构造 出 一 个 更 一 般 的 论证 ， 用 来 求 一 个 随机 排列 中 长 度 为 
k 的 圈 的 平均 个 数 。 通 过 改写 64 节 中 的 论证 ， 我 们 可 以 写 出 关于 长 度 为 的 圈 数 的 (指数 ) BGF: 





experi Ns 十 … 士 z Eure oa) 

2 3 k-1 k k+1 
如 果 将 其 展开 ， 那 么 每 一 项 代表 一 个 排列 ， 其 中 x 的 指数 记录 了 项 z%K 被 使 用 的 次 数 ， 或 对 应 
的 排列 中 长 度 为 的 圈 的 个 数 。 现 在 ，BGF 可 以 改写 为 如 下 形式 


Z pappo Cp) -exu Det 
epatit BC 1) =| -ep Dz /Kk) 
这 种 形式 可 以 使 我 们 计算 我 们 所 关注 的 量 。 


定理 6.12 (单元 素 围 的 分 布 ) 一 个 N 元 素 的 排列 具有 j 个 单元 素 轩 的 概率 渐 近 于 e-1/j!。 
一 个 大 小 为 N>k 的 随机 排列 中 长 度 为 k 的 图 的 平均 个 数 是 1/k， 其 方差 是 1/k。 





aR A l 223 . 


证 明 由 定理 6.3， 所 求 概率 由 上 面 导 出 和 的 BGF 的 系数 所 给 定 : 





jw ez Ny 
[ez haya ] 


平均 值 的 计算 是 定理 3.6 的 一 个 简单 应 用 : 关于 u 微 分 并 在 1 处 求解 ， 得 
an ae 1 
[z Cio k (N > k) 
而 方差 可 以 用 类 似 的 计算 来 导出 。 a 
我 们 还 可 以 归纳 推广 定理 6.11 并 导出 下 面 的 结果 : 在 一 个 NN 元 素 的 随机 排列 中 ， 长 度 <k 
的 圈 的 平均 个 数 是 有 友 。 当 然 ， 此 结论 只 在 上 不 大 于 N 时 成 立 。 
习题 6.61 利用 生成 函数 的 渐 近 性 ( 见 4.10 节 ) 或 用 直接 论证 的 方法 证 明 : 一 个 随机 排列 
中 具有 i 个 长 度 为 k 的 图 的 概率 渐 近 于 泊 松 分 布 e Nj, HPA = Ik, 
习题 6.62 ”对 于 长 度 为 100 的 一 个 排列 ， 在 程序 6.5 的 循环 中 ， 和 迭代 次 数 不 超 过 50 的 概率 
是 多 少 ? 
习题 6.63 [Knuth] 考 虑 一 种 在 排列 数组 不 能 被 修改 且 没 有 额外 内 存 可 用 的 情形 。 一 个 要 . 
进行 原 位 排列 的 算法 可 以 按 如 下 方法 来 设计 : 当时 到 圈 中 最 小 的 下 标 时 ， 每 个 圈 中 的 元 素 都 
要 排列 。 对 从 二 到 N 的 j3， 通 过 从 k=j 开 始 、 且 当 k>j 时 令 k=p[k] 的 方法 来 检查 每 个 下 标 ， 看 
它 是 不 是 较 中 的 最 小 下 标 。 如 果 是 ， 则 像 程序 6.5 那 样 对 这 个 圈 进 行 排列 。 证 明 : 指令 
k=p[k] 执 行 次 数 的 BGF 满 足 函 数 方程 
B,(u,z) = Bu, z)B(uz, z) 


根据 这 个 方程 求 随机 排列 的 这 个 参数 的 均值 和 方差 。( 见 [11]。) 
6.9 极 值 参数 


在 第 5 章 中 我 们 已 发 现 ， 树 高 要 比 路 径 长 度 难 分 析 得 多 ， 这 是 因为 计算 树 高 要 涉及 取 最 大 
子 树 的 值 ， 而 路 径 长 度 只 涉及 计数 和 加 法 ， 且 后 者 的 操作 更 自然 地 对 应 于 生成 函数 的 操作 。 
本 节 ， 我 们 将 考虑 关于 排列 的 类 似 的 参数 。 一 个 排列 中 最 长 或 最 短 的 圈 的 平均 长 度 是 多 少 ? 
最 长 游程 的 平均 长 度 是 多 少 ? 最 长 递增 子 序列 又 怎样 ? 一 个 随机 排列 的 逆序 表 中 最 大 元 素 的 
平均 值 是 多 少 ? 最 后 这 个 问题 还 引出 了 排序 的 另外 一 个 基本 算法 ， 我 们 现在 就 开始 讨论 这 个 
算法 。 

习 泡 排序 。 这 个 方法 很 容易 解释 : 要 对 一 个 数组 排序 ， 可 重复 扫描 这 个 数组 ， 如 有 必要 ， 
可 把 一 个 元 素 与 其 下 一 个 元 素 交换 以 使 它们 有 序 。 如 果 完 成 数组 的 某 址 扫描 时 没有 进行 过 任 
何 交换 (每 个 元 素 都 不 比 它 后 面 的 元 素 大 ) ， 排 序 就 完成 了 。 程 序 6.6 中 给 出 了 一 个 这 样 的 实 
现 。 为 分 析 此 算法 ,我们 需要 记录 交换 的 次 数 和 扫描 的 趟 数 。 


程序 6.6 贸 泡 排序 
i := Nel; 
repeat 
t := all]; i := i-1; 
for j := 2 to i do 
if a{j-1}] > al then 
begin t := a{j-1]; alj-1) := a[j]; alj] := t end 


until (t = a{1]); 
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交换 是 很 直接 的 : 每 个 交换 都 是 两 个 相 邻 元 素 的 交换 (和 插入 排序 一 样 )， 所 以 总 的 交换 
次 数 恰好 是 一 个 排列 中 的 逆序 数 。 所 用 的 趟 数 也 和 逆序 表 有 直接 的 联系 ， 如 图 6-11 所 示 : 每 
一 趟 结束 后 逆序 表 中 的 每 个 非 零 项 的 值 实际 上 都 减 1， 且 当 表 中 没有 非 零 项 时 ， 程 序 结束 。 这 
就 隐 含 了 对 一 个 排列 的 冒 泡 排序 所 需要 的 趟 数 恰好 等 于 逆序 表 中 的 最 大 元 素 。 这 个 量 的 分 布 
由 表 6-10 和 图 6-12 所 示 。 











9144 112210135 6113 8157 ooi 4215539808 
9 4 112210135 6113 814715 oreo St o o 
4 1 9 210125 6113 8137 1415 0 F 012 0 o5 SiE 0 BO 0 
1429105 6113 8 127 131415 00% 0 0 Wo BBB 000 
124956103 8117 12131415 000 0% 0B 0M@0000 
124569 3 8107 1112131415 000000#%0800000 
124563 8 9 7 101112131415 oco000M 008000000 
12453687 9 101112131415 oo00f@00F 0000000 
1243567 8 9 101112131415 oo0olfooo000000000 
1234567 8 9 101112131415 000000000000000 
1234567 8 9 101112131415 000000000000000 
1234567 8 9 101112131415 000000000000000 
1234567 8 9 101112131415 000000000000000 
1234567 8 9101112131415 000000000000000 
1234567 8 9101112131415 000000000000000 
图 6-11 冒 泡 排序 (排列 及 其 相应 的 逆序 表 ) 
表 6-10 逆序 表 中 最 大 值 的 分 布 

N} k—0 1 2 3 4 5 6 7 8 9 

1 1 

2 1 

3 1 3 2 

4 1 学 10 6 

5 1 15 38 42 24 

6 1 31 130 222 216 120 

7 1 63 422 1050 1464 1320 720 

8 t- 127 1330 4686 8856 10920 9360 5040 

9 1 255 4118 20202 50424 80520 91440 75600 40320 

w r 12610 85182 276696 558120 - 795600 851760 685440 362880 





定理 6.13 (逆序 表 中 的 最 大 值 ) 一 个 随机 排列 的 逆序 表 中 最 大 元 素 的 均值 为 ~N- 
nN/2 。 
证 明 长 度 为 Y、 所 有 项 都 小 于 k 的 逆序 表 的 个 数 恰 好 是 kikW “， 这 是 因为 当 i< 时 ， 第 天 
可 以 是 0 到 i - 1 之 间 的 任何 值 ， 当 i>k 时 ， 第 斋 可 以 是 0 到 k - 1 之 间 的 任何 值 。 因 此 ， 最 大 项 
小 于 /的 概率 就 是 如 必 -YN!， 因 而 我 们 所 求 的 均值 就 为 


(i oe 
os N! 


和 式 中 的 第 二 项 是 “Ramanujan P- 函 数 ”"， 其 渐 近 值 已 由 表 4-11 给 出 。 E 
推论 ”对 随机 顺序 、 关 键 字 互 异 的 N 个 记录 的 文件 排序 ， 置 泡 排序 平均 要 做 ~N2/2 次 关 
键 字 比 较 ， 并 平均 移动 ~N2z/2 次 记录 (A ~N-VAN/2 BH), 
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证 明 见 上 面 的 讨论 。 


0.5 7 


0.333 4 


0.167 








图 6-12 最 大 逆序 表 项 的 分 布 


习题 6.64 考虑 对 冒 泡 排 序 的 一 个 修改 : 扫描 数组 时 轮换 方向 (由 右 向 左 , 然后 由 左 向 右 ) 
两 趟 这 样 的 扫描 之 后 对 逆序 表 有 什么 影响 ? 


最 长 图 和 最 短 轿 。 


一 个 排列 中 最 长 圈 的 平均 长 度 是 多 少 ? 我 们 可 以 立即 对 此 写 出 一 个 表 
达 式 。 在 本 章 开始 阶 段 ， 曾 导出 过 一 个 关于 对 不 存在 圈 长 大 于 k 的 排列 计数 的 指数 生成 函数 
( 见 定理 6.2): 


-142422442 410% 4262 47624. 
2! j ” 
2427/2427 /3 


Ne ata ea eat 


e 
3! 
ez+z 12+213+z 14 yy z+ 22 6% 4 24 4 965 


3 
5! 6! 


1 354 
= 一 -一 wtec42 465 424= 4102472024. 
l-z 2! 3! 4! 


根据 这 些 方程 ， 我 们 可 以 写 出 关于 至 少 有 一 个 圈 长 大 于 /的 排列 的 生成 函数 ， 或 等 价 地 ， 关 于 
最 大 轿 长 大 于 k 的 排列 的 生成 函数 : 


1 
as, Sug ie 


2422462 424% 41002470024. 
1-z 2! 
i. 4 z 
Zastopamo s. 
1-z 6! 
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1 3 4 5 6 
ett = 224142 +942- +644% +... 

1-z 3! 4! 5! 6! 

， 4 5 6 
Lernen 62 +542- +4442- +... 

1-z 4! 5! 6! 

1 ; 5 6 
Len? /13+z414 _ 242 426424... 

l-z 5! 6! 


由 表 3-6， 一 个 随机 排列 中 最 大 图 长 的 平均 值 可 以 通过 累加 这 些 方 程 来 求 出 ， 并 可 表示 如 下 : 


1 2 0240134...4 Ik \ 
[z*] [l gees 12427 13，… 十 Z Ik 
外 1-z ) 


一 般 情况 下 ， 对 于 极 值 参数 而 言 ， 要 从 这 些 信息 中 导出 一 个 渐 近 结果 是 相当 复杂 的 。 当 N 不 大 
时 ， 我 们 可 以 通过 昧 加 上 述 方程 ， 计 算 这 个 量 的 准确 值 ， 从 而 得 到 关于 最 大 圈 长 长 度 的 指数 
CGF 的 一 些 初 始 项 : 
143 p67 ses. 
1! 2! 3! 4! 5! 

实际 上 ， 一 个 随机 排列 中 最 大 图 长 为 ~AN， 其 中 和 = 0.62433...。 该 结果 由 Golomb, Shepp 和 
Lloyd[15] 于 1966 年 首次 导出 。 

习题 6.65 对 所 有 的 N<10， 求 长 度 为 N 的 随机 排列 中 最 短 圈 的 平均 长 度 。( 注 : Shepp 和 
Lloyd 指 出 了 这 个 量 为 ~e "InN， 其 中 y 是 欧 拉 常数 。) 

排列 作为 基本 组 合 对 象 已 得 到 了 很 好 的 研究 ， 我 们 期 望 对 它们 性 质 的 了 解 将 有 助 于 我 们 
理解 排序 算法 的 性 能 特征 。 例 如 ， 圈 和 逆序 等 基本 性 质 与 插入 排序 、 选 择 排序 和 冒 泡 排序 等 
基本 算法 之 间 的 直接 对 应 关系 就 证 实 了 我 们 预期 的 结果 。 

目前 关于 新 排序 算法 的 研究 以 及 对 它们 性 能 的 分 析 是 相当 活跃 的 。 排 序 的 变 体 ， 如 优先 
队列 、 归 并 算法 以 及 排序 “网 络 ”等 ， 依 然 具 有 实际 意义 。 新 型 计算 机 及 新 的 应 用 需要 新 的 
方法 和 对 老 方法 更 好 地 理解 ， 本 章 所 概述 的 分 析 种 类 是 设计 和 使 用 此 类 算法 过 程 中 的 一 个 重 
要 组 成 部 分 。 

正如 本 章 自始至终 所 提议 的 ， 目 前 已 有 可 用 的 一 般 工具 [4] 能 够 回答 本 章 提 出 的 许多 更 为 
复杂 的 问题 。 我 们 强调 了 使 用 累积 生成 函数 来 分 析 排 列 的 性 质 ， 因 为 它们 对 我 们 所 关注 的 量 
的 平均 值 提 供 了 一 个 直接 的 “系统 的 ”行动 步 驻 。 对 排列 性 质 的 分 析 ， 黑 积 方法 比 可 用 的 递 
归 法 或 BGF 法 常常 能 够 以 更 简单 、 更 直接 的 方式 给 出 结果 。 和 以 往 一 样 ， 虽 然 “垂直 ”GF 可 
用 来 计算 较 小 的 值 并 以 此 开始 分 析 ， 但 分 析 极 值 参数 (那些 与 可 加 性 规则 相对 立 的 、 由 一 个 
“最 小 ”或 “最 大 ”规则 所 定义 的 参数 ) 则 要 困难 得 多 。 

尽管 排列 作为 一 个 组 合 对 象 而 言 比较 简单 ， 但 对 初学 者 而 言 ， 尚 待 处 理 的 分 析 问 题 其 数 
量 之 多 常常 是 相当 惊人 的 。 然 而 ,我 们 能 够 利用 一 套 标准 方法 来 回答 有 关 排 列 性 质 的 基本 问 
题 这 一 事实 还 是 令 人 鼓舞 的 ， 这 不 仅仅 是 因为 这 些 问题 中 的 许多 问题 都 来 自重 要 的 应 用 ， 而 
且 还 因为 我 们 希望 能 够 继续 学 习 更 加 复杂 的 组 合 结构 。 
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第 7 章 串 与 trie 树 


从 一 个 国定 的 字母 表 中 抽取 的 字符 或 字母 的 序列 叫做 事 〈string )。 处 理 串 的 算法 十 分 普 
遍 ， 无 论 从 计算 理论 核心 中 的 基本 方法 还 是 到 实践 中 大 量 重要 应 用 的 文本 处 理 方法 ， 都 要 涉 
及 处 理 串 的 算法 。 本 章 我 们 将 学 习 串 的 基本 组 合 性 质 、 一 些 有 关 查 找 串 中 模式 的 算法 、 以 及 
相应 的 数据 结构 。 

我 们 用 位 囊 (bitstring) 这 个 词 来 表示 仅 由 两 个 字符 组 成 的 串 ; 如 果 字 母 表 的 大 小 M> 2， 
RREK URF Y PRF, M-P (M-ary string)。 在 本 章 中 ， 我 们 假定 M 是 一 个 不 大 的 
固定 常数 ， 这 个 假定 对 于 我 们 所 关心 的 文本 处 理 和 位 处 理 算 法 是 合理 的 。 如 果 M 可 以 变 大 
《例如 ， 随 着 串 的 长 度 增加 而 增加 )， 那 么 我 们 有 一 个 稍微 不 同 的 组 合 对 象 一 -下 一 章 将 要 提 
及 的 课题 。 这 一 课题 与 本 章 内 容 是 有 重要 区 别 的 ， 我 们 将 在 第 8 章 中 给 出 详细 的 讨论 。 本 章 我 
们 主要 关心 的 是 从 固定 大 小 的 字母 表 中 产生 的 潜在 的 长 串 ， 以 及 它们 作为 序列 时 的 性 质 。 

从 算法 的 观点 看 ， 将 注意 力 集中 在 位 串 而 不 是 字 节 串 上 并 没有 失去 多 少 一 般 性 : 从 一 个 
较 大 的 字母 表 中 产生 的 字符 串 与 通过 对 一 些 单个 字符 进行 二 进 制 编码 所 产生 的 位 串 是 相对 应 
的 。 相 反 地 ， 从 一 个 较 大 的 字母 表 中 产生 的 算法 、 数 据 结 构 或 串 的 分 析 却 以 某 种 方式 依赖 于 
字母 表 的 大 小 ， 位 串 中 同样 的 依赖 关系 可 以 通过 考虑 块 中 的 位 反映 出 来 。M- 串 与 位 串 之 间 的 
这 种 特定 的 对 应 关系 仅 当 M 是 2 的 需 时 才 是 准确 的 。 我 们 很 容易 把 一 个 算法 或 分 析 从 位 串 推广 
到 M- 串 〈 本 质 上 是 将 2 全 部 变 成 M)， 所 以 在 适当 的 时 候 我 们 就 这 样 做 。 

随机 位 串 恰好 对 应 于 独立 的 伯 努 利 试验 ， 后 者 在 古典 概率 论 中 已 得 到 了 很 好 的 研究 ， 在 
算法 分 析 中 这 样 的 结果 是 值得 注意 的 ， 因 为 许多 算法 本 质 上 明显 地 依赖 于 二 进 制 串 的 性 质 。 
本 章 及 下 一 章 我 们 将 回顾 一 些 相 关 的 经 典 结 果 。 正 如 我 们 在 前 两 章 中 对 树 和 排列 所 做 的 事情 
一 样 ， 我 们 将 从 一 种 计算 的 观点 来 考虑 问题 ， 并 利用 生成 函数 作为 组 合 分 析 的 工具 。 这 种 方 
法 对 某 些 古典 问题 能 产生 简单 的 结果 ， 并 能 给 出 一 个 非常 通用 的 框架 ， 在 这 个 框架 内 可 以 考 
虑 令 人 惊异 的 广大 范围 内 的 问题 。 

我 们 将 考虑 关于 在 一 个 给 定 的 串 中 查找 一 个 固定 模式 的 算法 ， 该 算法 用 模式 特定 的 有 限 状态 
自动 机 (FSA) 的 术语 进行 最 好 的 描述 。FSA 不 仅 导 致 了 统一 、 简 洁 、 和 有 效 的 工具 ， 而 且 结 果 
证 明 自 动机 恰好 与 相应 模式 的 生成 函数 相对 应 。 本 章 我 们 将 详细 地 研究 一 些 这 样 的 例子 。 

某 些 计算 工作 要 涉及 对 串 集 合 的 明确 的 操作 。 串 集合 〈 通 常 是 无 限 集 ) 称 作 语 言 ， 是 计 
算 机 科学 中 一 个 极为 重要 的 外 延 理论 的 基础 。 语 言 是 按照 描述 组 成 它们 的 串 的 难度 来 分 类 的 。 
当前 ， 我 们 将 主要 涉及 规则 的 语言 和 上 下 文 无 关 的 语言 ， 这 些 语言 将 描述 许多 有 趣 的 组 合 结 
构 。 本 章 我 们 将 给 出 许多 例子 ， 来 阐明 在 分 析 语言 的 性 质 中 生成 国 数 的 功用 。 值 得 注意 的 是 ， 
我 们 完全 可 以 描述 关于 规则 语言 和 上 下 文 无 关 语 言 的 生成 函数 的 特征 ， 并 可 以 证 明 这 些 特征 
在 本 质 上 是 根本 不 同 的 。 

一 个 重要 的 叫做 trie 树 的 数据 结构 经 常 被 用 在 处 理 串 和 有 限 串 集 合 的 算法 中 。trie 树 是 类 似 
于 树 的 对 象 ， 基 结构 是 由 一 组 位 串 的 位 值 所 决定 的 。 如 果 位 串 是 独立 的 并 且 是 随机 选择 的 话 ， 
那么 trie 树 就 是 一 个 具有 大 量 有 趣 性 质 的 组 合 对 象 。 本 章 我 们 将 着 眼 于 基本 的 trie 树 算法 、trie 
树 的 性 质 、 以 及 相应 的 生成 函数 。trie 树 不 仅 在 广泛 的 应 用 领域 中 有 用 ， 对 它们 的 分 析 也 能 展 
现 和 引出 许多 重要 的 算法 分 析 工 具 。 
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7.1 PER 


我 们 通过 考虑 一 个 关于 “ 串 查找 ”的 基本 算法 来 开始 本 章 内容 : 给 定 一 个 长 度 为 的 模式 
和 某 个 长 度 为 N 的 文本 ， 并 在 文本 中 寻找 该 模式 的 出 现 。 程 序 7.1 给 出 了 这 个 问题 的 直接 解法 。 
对 文本 中 的 每 一 个 位 置 ， 程 序 从 这 个 位 置 开始 与 模式 (MAF) 一 个 字符 一 个 字符 地 进行 
比较 ， 以 检查 是 否 存在 一 个 匹配 。 程 序 假定 了 两 个 不 同 的 标记 字符 ， 一 个 用 于 模式 的 尾部 
(第 (k + D) 个 模式 字符 )， 一 个 用 于 文本 的 尾部 (EN + 1 个 文本 字符 )。 这 样 所 有 串 的 比较 都 
将 终止 于 字符 的 一 个 不 匹配 ， 并 且 我 们 可 以 通过 简单 地 检查 是 不 是 标记 引起 的 不 匹配 来 判断 
模式 是 否 在 文本 中 。 

程序 7.1 串 查找 的 基本 方法 


procedure stringsearch; 

var i, j: integer; 

begin 

for i := 1 to N do 
begin 
j := 0; 
repeat j := j+l until ali+j-1] <> pli]; 
if j = k+l then << match found >> 
end 

end; 


针对 不 同 的 应 用 ， 基 本 算法 的 许多 不 同 变化 可 能 会 值得 我 们 关注 : 

。 当 找到 第 一 个 匹配 时 结束 ; 

。 打 印 出 所 有 匹配 的 位 置 ; 

。 统 计 匹 配 的 次 数 ; 

。 找 出 最 长 的 匹配 。 

在 程序 7.1 中 ， 通 过 在 指定 的 点 ， 即 找到 匹配 的 地 方 增加 适当 的 编码 ， 上 述 变 化 就 可 以 很 容易 
地 得 以 实现 。 在 某 些 应 用 中 ,文本 串 尾部 处 的 部 分 匹配 可 能 也 需要 关注 ; 如 果 不 是 这 种 情况 ， 
则 当 文 本 中 所 剩 文 本 字符 的 个 数 少 于 kK 时， 就 可 以 通过 结束 循环 来 改进 此 程序 。 在 其 他 各 种 具 
体 情况 下 ， 类 似 的 改进 可 能 更 适合 实际 情况 。 程 序 7.1 所 给 出 的 基本 实现 对 许多 帅 查找 应 用 来 
说 是 一 个 合理 的 通用 方法 ， 不 过 我 们 在 本 章 还 将 看 到 更 好 的 方法 。 

尽管 对 某 些 模式 而 言 ， 现 在 已 经 有 了 一 些 对 基本 算法 的 小 改进 ， 但 目前 我 们 还 是 采用 一 
个 任意 的 但 也 是 固定 的 模式 。 例 如 ， 我 们 可 以 只 通过 保留 一 个 计数 器 、 并 扫描 整个 文本 来 实 
现 查找 k 个 连续 的 0 字符 的 囊 (一 个 游程 ): 当 遇 到 一 个 1 时 ， 将 计数 器 清 零 ， 当 遇 到 一 个 0 时 ， 
将 计数 器 增 1， 并 当 计 数 器 达到 /时 停止 扫描 。 我 们 也 可 反 过 来 考虑 这 样 的 问题 : 当 程序 7.1 查 
找 k 个 连续 0 字符 的 串 (假定 比较 大 ) 时 ， 如 果 当 它 遇 到 一 个 小 的 游程 ， 比 方 说 五 个 0 后 跟 一 
个 1 的 游程 时 ， 程 序 7.1 的 执行 过 程 是 怎样 的 。 它 将 检查 所 有 五 个 0， 当 碰 到 1 时 确定 出 存在 一 
个 不 匹配 ， 然 后 将 文本 指针 仅仅 增 1， 因 此 ， 当 它 再 检查 了 四 个 0 和 一 个 1 后 ， 又 确定 出 一 个 不 
匹配 ， 然 后 再 检查 三 个 0 和 一 个 1， 依 此 类 推 。 该 算法 对 每 个 个 0 的 游程 检验 了 (i + DG + 2)/2 
个 位 之 后 才 结 束 。 在 本 章 稍 后 ， 我 们 将 探讨 为 避免 这 种 重复 性 检查 而 对 基本 算法 所 进行 的 改 
进 。 目 前 ， 我 们 所 关心 的 是 探讨 如 何 来 分 析 这 个 基本 算法 。 

“所 有 匹配 ” 变 体 的 分 析 。 我 们 感 兴趣 的 是 在 一 个 随机 文本 中 找 出 程序 7.1 的 平均 运行 时 间 。 
显然 ， 运 行 时 间 和 查找 过 程 中 要 检查 的 字符 个 数 成 正比 。 由 于 每 个 串 比 较 都 在 不 匹配 时 结束 ， 
因此 它 的 开销 是 1 加 上 文本 位 置 处 那些 与 模式 相 匹配 的 字符 的 个 数 。 表 7-1 对 4 位 模式 中 的 每 种 
模式 在 一 个 样本 文本 串 中 的 开销 给 出 了 结果 。 在 文本 串 的 每 个 位 置 上 我 们 都 关联 了 一 个 整数 ， 
该 整数 表示 从 文本 位 置 起 与 模式 相 匹配 的 字符 位 置 的 个 数 。 这 些 数 的 和 加 上 (不 匹配 的 次 数 ) 





Re 


就 是 程序 7.1 中 内 层 循环 的 迭代 次 数 ， 显 然 它 是 程序 运行 时 间 的 主 项 。 利 用 累积 法 ， 通 过 一 个 
简单 的 计数 变量 ， 我 们 就 可 以 算出 这 个 值 。 


表 7-1 查找 4 位 模式 的 开销 (基本 方法 ) 





011101000100000100100000i 1 it 
0000 100010321044321021044:32:100 39 
0001 10001042103342102103342:100 39 
0010 10001024102224104102223100 35 
001: 100010231022231 03102224100 33 
0100 20004011401111401401121200 3 
0101 2000301130111130130i1i1d1d1200 27 
0110 30002011201111201201211:1300 22 
0ll140002011201311120120d1i1d11300 25 
1000 01120400040000030040000011 21 
100101120300030000040030000011 19 
1010 0112020002000002002000001 1 14 
11101120200020000020020000011 14 
100023 10100010000010010000021 13 
101 02410100010000010010000021 14 
1004210100010000010010000021 14 
Hu03210100010000010010000021 13 
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定理 7.1 (模式 出 现 的 计数 ) ”一 个 长 度 为 上 的 任意 固定 模式 在 一 个 长 度 为 N 的 随机 位 事 
中 出 现 的 期 望 次 数 是 (N - k+ 1)/2 。 


证 明 ”使 用 累积 计数 法 我们 在 所 有 2* 个 N 位 位 串 中 来 统计 模式 出 现 的 总 次 数 。k 位 可 以 
起 始 于 N - k+ 1 个 位 置 中 的 任何 一 个 位 置 ， 且 对 每 个 位 置 ， 有 2*“ “个 位 串 与 模式 同 在 那个 位 
置 。 累 积 所 有 这 些 项 即 可 得 出 所 求 的 总 数 为 (N - k+ 1)2*-*， 再 除 以 2*， 即 得 到 所 述 结果 。 M 


推论 ”在 一 个 长 度 为 N 的 文本 事 中 ,寻找 一 个 长 度 为 k 的 任意 固定 模式 的 所 有 出 现时 ， 
由 基本 事 查 找 算 法 所 做 的 位 比较 的 期 望 次 数 是 N(2 - 27-4) + O(1)。 


证 明 为 找 出 算法 在 查找 过 程 中 所 检查 的 位 数 ， 我 们 注意 到 可 以 用 另外 一 种 方式 来 解释 表 7-1 
中 的 数 : 它们 记录 了 在 文本 中 起 始 于 相应 位 置 的 模式 的 前 缀 数 。 现 在 我 们 也 可 以 利用 上 面 的 公式 
来 统计 前 绿 数 。 由 此 得 出 在 所 有 2 个 N 位 位 串 中 ， 模 式 的 前 级 出 现 的 总 次 数 的 表达 式 
yo -j+1)2^ 


I<jJ<k 


计算 这 个 和 式 ， 将 其 除 以 2"， 再 加 上 N (不 匹配 的 次 数 )， 即 可 得 到 所 述 结果 。 | 


推论 在 一 个 随机 位 事 中 要 找到 一 个 任意 的 无 限 长 模式 的 最 长 匹配 ， 基 本 串 查 找 算法 
所 检查 的 平均 位 数 是 ~2N。 


以 上 这 些 结果 都 和 模式 无 关 。 这 似乎 有 悖 于 我 们 的 直觉 ， 因 为 我 们 知道 ， 要 查找 一 个 由 0 
构成 的 长 串 时 ， 将 要 对 文本 中 每 个 ! 个 0 的 游程 检查 O( 轨 个 位 ， 而 查找 一 个 1 后 接 一 个 由 0 构成 
的 长 串 时 却 没 有 这 种 明显 的 “二 次 ”行为 。 这 种 现象 可 以 通过 注意 下 面 的 事实 来 解释 : 后 一 
种 模式 的 前 级 是 在 文本 中 的 某 个 地 方 ， 但 该 前 缀 并 没有 像 由 0 构成 的 串 那样 被 捆绑 在 一 起 。 因 
为 我 们 使 用 的 是 累积 总 数 ， 所 以 我 们 不 必 担心 前 缀 不 同 的 实例 之 间 的 独立 性 问题 ; 我 们 对 它 
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们 统统 计数 。 相 反 地 ， 寻 找 第 一 个 匹配 所 需 的 时 间 确 实 与 模式 有 关 ， 即 使 是 对 随机 文本 也 是 
如 此 。 这 和 我 们 要 关注 的 另 一 个 量 一 一 模式 在 文本 中 不 出 现 的 概率 一 一 有 直接 的 联系 。 下 一 
节 ， 我 们 将 探讨 这 些 分 析 结 果 的 细节 。 

为 了 重 述 这 个 区 别 ， 我 们 考虑 使 用 OGF 和 关于 这 一 问题 的 符号 法 。 计 数 长 度 为 的 一 个 任 
意 固定 模式 的 出 现 次 数 的 OGF 为 


一 -zk — 
1-2z 1-2z 


这 是 因为 这 种 固定 模式 的 出 现 是 通过 连接 一 个 任意 的 字 、 读 模式 以 及 另 一 个 任意 的 字 而 构成 
的 。 在 计算 中 (模式 的 每 个 出 现 计 数 一 次 ) ， 某 个 特定 的 位 串 可 能 被 计数 过 多 次 ， 这 恰好 就 是 
我 们 所 要 寻找 的 。 因 此 ， 和 定理 7.1 中 一 样 ， 在 所 有 长 度 为 N 的 位 串 中 ， 一 个 长 度 为 的 固定 模 
式 出 现 的 次 数 是 

1 
1-2z 


此 外 ， 这 个 数 与 含有 一 个 任意 固定 模式 (一 次 或 多 次 出 现 ) 的 长 度 为 N 的 位 串 个 数 是 不 同 的 。 

本 章 稍 后 ， 我 们 将 探讨 对 基本 方法 进行 算法 改进 的 问题 。 首 先 ， 我 们 将 考查 Knuth- 
Morris-Pratt 算 法 ， 它 是 一 个 这 样 的 算法 : 通过 利用 与 模式 长 度 成 正比 的 预 处 理 时 间 以 获得 一 
个 “最 佳 ”的 查找 时 间 ， 使 得 文本 中 的 每 个 字符 最 多 被 检查 一 次 。 在 本 章 的 末尾 我 们 还 将 看 
到 ， 随 着 在 预 处 理 中 更 多 的 投入 ， 文 本 可 以 被 构建 成 一 种 数据 结构 ， 这 种 结构 与 一 个 叫做 trie 
树 的 、 人 允许 模式 查找 在 与 模式 长 度 成 正比 的 时 间 内 完成 查找 的 一 个 通用 结构 相 联系 。trie 树 对 
大 量 其 他 有 关 位 串 的 算法 也 提供 了 有 效 的 支持 ， 但 在 涉及 基本 的 分 析 结 果 之 前 ， 我 们 先 不 考 
虑 这 些 问题 。 


7.2 位 串 的 组 合 性 质 


研究 等 可 能 的 2* 个 长 度 为 N 的 由 0 和 1 所 组 成 的 随机 字符 串 (位 串 ) 的 性 质 是 值得 我 们 去 关 
注 的 。 位 串 是 由 OGF 


[z”] 





1 1 
k = N-k =(N-k+1 nek 
z 于 元 [z EES ( +1) 


S(z) = >, z= » (EEANN R 


来 计数 的 ， 其 中 5 表示 所 有 位 串 的 集合 。 位 串 要 么 为 空 串 ， 要 么 第 一 个 字符 为 0 或 1， 因 此 
SW -1+2 92" = 1+ 2250) 


所 以 S(z) = (1 - 2z)), iE RNR, REN BRE”. Te) RP REP HED 
和 树 一 样 ， 我 们 可 以 修改 这 个 基本 变量 ， 以 便 研 究 位 串 更 多 有 趣 的 性 质 。 

例如 ， 我 们 已 经 遇 到 过 在 一 个 随机 位 串 中 对 1 进行 计数 的 问题 ， 这 是 3.12 节 中 的 一 个 例子 : 
其 相应 的 二 元 生成 函数 涉及 二 项 分 布 


— ufs) isl 1 = N k_N 
Plusz)= Xu Zz “Tyas Sd} 
我 们 曾 用 定理 3.11 计 算 过 在 一 个 N 位 随机 串 中 位 为 1 的 平均 个 数 是 
[2% JP.(1,z)/2% =N/2 
等 等 。 我 们 将 在 第 8 章 中 像 刚 才 那 样 更 详细 地 考查 “全 局 ”性 质 ; 在 本 章 中 ， 我 们 将 主要 把 精 
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力 更 多 地 集中 在 涉及 那些 串 中 相互 临近 的 位 的 “局 部 ”性 质 上 。 

研究 随机 位 串 的 性 质 等 价 于 研究 独立 伯 努 利 试验 (或 抛掷 硬币 ) 的 性 质 ， 所 以 我 们 要 用 
到 概率 论 中 的 一 些 经 典 结果 。 本 章 我 们 不 仅 要 把 注意 力 特 别 集中 在 试验 上 ， 还 要 集中 在 事件 
的 序列 上 ,还 有 一 些 经 典 的 结果 与 此 有 关 。 在 概率 论 中 ， 我 们 要 考查 随机 试验 的 一 个 序列 的 
性 质 并 研究 “等 待 时 间 ”( 比 如 ， 见 Fller[6]) ; 在 算法 研究 中 ,通过 取 序 列 中 的 位 ， 我 们 将 考 
查 关于 串 中 的 模式 查找 这 样 的 一 个 等 价 问 题 ， 这 是 用 一 种 自然 的 方法 来 考虑 相同 的 问题 。 正 
如 我 们 将 要 看 到 的 ， 这 种 考查 的 结果 表明 : 形式 语言 理论 和 生成 函数 的 结合 ， 为 与 伯 努 利 试 
验 序列 相 联 系 的 解析 现象 的 研究 提供 了 一 个 清晰 的 解释 。 

0 的 游程 。 我 们 从 考查 下 面 的 基本 问题 开始 : 在 一 个 随机 位 串 中 ， 我 们 期 望 在 什么 地 方 找 
到 第 一 个 有 连续 k 个 0 的 位 串 ? 表 7-2 给 出 了 十 个 长 随机 位 串 以 及 第 一 次 出 现 一 个 、 两 个 、 三 个 
和 四 个 0 的 位 置 。 结 果 表 明 : 生成 函数 对 这 个 问题 可 导出 一 个 简单 的 解 ， 并 且 这 个 解 可 以 代表 
许多 类 似 的 问题 。 


表 7-2 ”样本 位 串 中 0 的 第 一 个 游程 的 位 置 





1 2 3 4 
01010011101010000110011100010111011000110111111010 0 4 13 13 
01110101010001010010011001010000100001010110100101 0 10 10 28 
01011101011011110010001110000001010110010011110000 0 16 19 25 
10101000010100111010101011110000111110000111001001 1 5 5 5 
11111111001000001001001100100110000000100000110001 8 8 11 11 
00100010001100101110011100001100101000001011001111 0 0 3 24 
01011011110110010110000100101001010000101001111110 0 13 19 19 
10011010000010011001010010100011000001111010011010 1 1 7 7 
01100010011001101100010111110001001000111001111010 0 3 3 一 
01011001000110000001000110010101011100111100100110 0 5 8 13 

平 均 1.0 6.5 9.8 





定理 7.2 (0 的 游程 ) AARNE ROM ALE BPRS BRA 
1 一 和 
1-2z4+ 2" 


证 明 设 5; 是 不 存在 k 个 连续 0 的 游程 的 位 串 数 ， 则 
S,(2) = Da - Dy CR BEANO EEK ORRERA 


S,@)= 


于 是 ， 任 何 一 个 不 含 k 个 连续 0 的 位 串 要 么 是 〈i) 空 串 或 由 零 到 上 - 1 个 0 构成 的 串 ; RÆ (ii) 
零 到 k - 1 个 0， 后 接 一 个 1， 再 后 接任 何 一 个 不 含 k 个 连续 的 0 的 位 串 。 根 据 位 串 中 0 的 初始 个 数 
建立 起 这 种 对 应 关系 ， 就 可 以 得 到 一 个 函数 方程 ， 然 后 再 得 到 关于 OGF 的 一 个 显 式 表达 式 : 


S (z)=l+z+ +z + ye 
yO Kk 


k 
LZ 14 28,2) 
l-z 





对 此 式 求 解 ， 我 们 得 到 





234 7 





k 


1-z 
- 1-2" 
Sz2)=— 1-z 2% 
(z) ers 1-224 2"! 
1-z B 


HARE ARRA AEn RUE AR CRR. SEBUDME, Mk =1, 
2. 3, RNAP RAK: 











1- 
=) Z zaltz+z +2 +ó +2 +2 +z +o 
-2z+z 
2 
= y =1+2z+3z° +5z° +8z +132° + 212° +34z + 
-2z+z 
3 
- L Z =14+2z+4z? +723 +1324 + 242° + 44z5 +81z' +- 
一 <Z 十 Z 


对 于 k = 1， 上 式 证 实 了 长 度 为 N 的 不 含 一 个 0 的 游程 的 串 〈 全 是 1 的 串 ) 有 一 个 。 对 k = 2, 我 
们 有 
1+z 
l-z2-27 
这 是 斐 波 那 契 数 ( 见 2.4 节 )。 事 实 上 ， 表 达 式 





S,(z) = 所 以 (2S, (2) = Fryar + Fy = Frag 


l+z+z? tetz 


I-z-27-----2" 
表明 了 [zwS,(z) 与 习题 4.18 中 所 推广 的 斐 波 那 契 数 满足 相同 的 递 推 关 系 ， 但 具有 不 同 的 初 值 。 
因此 ， 定 理 4.1 可 用 来 求 关于 [zjSxz) 的 渐 近 估计 。 
推论 长 度 为 N 的 不 存在 k 个 连续 0 的 游程 的 位 事 数 渐 近 于 ciB”， 其 中 Bi 是 多 项 式 z* 一 
ola z- 1=0 的 最 大 模 数 的 根 而 cs = (B* + Bt +e +BB) 428°? + 
36- 34e +(K 一 1) + k). 
证 明 由 习题 4.18 和 定理 4.1 可 立即 得 证 。 对 于 较 小 的 k 值 ， 表 7-3 给 出 了 co 和 的 近似 值 。 国 


表 7-3 不 含 kK 个 0 的 游程 的 位 串 计 数 ([z"]Su(z) ~ 6) 


S,(2) = 

















k Si(z) cx Px 
1-2? 

2 lois 1.17082- 1.61803- 
l-2? 

3 zz 1.13745- 1.83929--- 
1-24 

4 lode 1.09166… 1.92756… 
1-2° 

5 1-2z+2° 1.05753- 1.96595- 

6 1-z° 1.03498--- 1.98358--- 

1-2z+2z’ 





习题 7.1 给 出 [z"]Si(z) 所 满足 的 两 个 递 推 关系 。 
习题 7.2 ”一 个 随机 位 串 应 该 取 多 长 时 ， 才 能 有 99% 的 把 握 保证 至 少 有 三 个 连续 的 0? 
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习题 7.3 ”一 个 随机 位 串 应 该 取 多 长 时 ， 才 能 有 50% 的 把 握 保证 至 少 有 32 个 连续 的 09? 
习题 7.4 证 明 


[z™ 1S, (z) = Dov"(( -z(y 可 
maT A ee 


第 一 个 0 游程 。 计 算 第 一 个 具有 k 个 0 的 游程 的 平均 位 置 的 捷径 是 现成 的 ， 因为 计算 不 售 k 
个 连续 0 的 位 串 数 的 OGF 与 关于 一 个 随机 串 中 第 一 个 具有 Kk 个 连续 0 的 游程 中 最 后 一 位 (结束 ) 
的 位 置 的 PGF 有 着 紧密 的 联系 ， 见 如 下 运算 : 


S,(z)= > z" 


= > { 长 度 为 N 的 不 含 k 个 0 的 游程 的 位 串 数 }z 


S,(1/2) = 之 人 长 度 为 N 的 不 含 k 个 0 的 游程 的 位 串 数 }/2* 
5,(1/2) = > Pr {不 含 k 个 0 的 游程 的 随机 位 串 的 第 一 个 N 比 特 位 } 
= > Pr{ 具 有 k 个 0 的 第 一 个 游程 的 结束 位 置 > 入} 


这 个 累积 概率 之 和 与 我 们 的 期 望 是 相同 的 。 
推论 在 一 个 随机 位 串 中 ， 第 一 个 金 有 K 个 0 的 游程 的 平均 结束 位 置 是 SKL2)= 2471 - 2。 


生成 函数 可 以 大 大 简化 期 望 的 计算 ; 欢迎 任何 怀疑 这 一 事实 的 读者 验证 ， 比 如 说 ， 通 过 
关于 第 一 个 含有 k 个 0 的 游程 出 现在 位 置 j 的 概率 为 Pj 来 导出 一 个 递 推 关系 ， 然 后 计算 Yjjpj 来 验 
证 推论 7.4 的 结果 。 对 于 排列 ， 我 们 发 现 N 元 素 排 列 的 总 数 N! 使 我 们 导出 了 EGF; 对 于 位 串 ，N 
元 素 位 串 的 总 数 将 使 我 们 导出 和 上 面 一 样 的 关于 z/2 的 函数 方程 。 

存在 性 。 对 定理 7.2 的 第 二 个 推论 的 证 明 也 说 明了 求 一 个 模式 的 第 一 个 出 现 大 约 等 价 于 计 
算 不 含 该 模式 的 串 的 个 数 ， 它 也 告诉 了 我 们 一 个 随机 串 中 不 含 k 个 0 的 游程 的 概率 是 [z]Stz/2)。 
Blan, Hk = 1， 概 率 是 1/2*， 因 为 只 有 全 部 是 1 的 串 才 不 含 k 个 0 的 游程 。 对 k = 2， 概 率 是 
OCHD) (其 中 和 =(+V5)12=161803… )， 且 以 N 的 指数 形式 递减 。 对 固定 的 k， 这 个 结论 总 
是 成 立 的 ， 因 为 在 表 7-3 中 ， 有 保持 严格 小 于 2。 稍 微 再 进行 一 点 详细 的 分 析 ， 就 能 揭示 出 一 旦 
当 N 增 加 到 超过 2 时 ， 某 个 k 位 模式 不 出 现 的 事件 就 变 得 越 来 越 不 可 能 。 例 如 ， 根 据 表 7-3 进 行 
一 个 快速 计算 就 能 说 明 : 一 个 10- 位 串 中 不 含 六 个 0 的 游程 的 可 能 性 为 92% ， 一 个 100- 位 串 不 
含 六 个 0 的 游程 的 可 能 性 为 44%， 一 个 1000-- 位 串 不 含 六 个 0 的 游程 的 可 能 性 为 0.02%。 

最 长 游程 。 一 个 随机 位 串 中 最 长 的 0 的 游程 的 平均 长 度 是 多 少 ? 图 7-1 给 出 了 这 个 量 的 分 布 。 
正如 我 们 在 第 5 章 中 对 树 高 和 第 6 章 中 对 排列 中 的 圈 长 所 做 过 的 事情 一 样 ， 我 们 可 以 通过 累加 上 
面 所 给 出 的 “垂直 ”GF 来 得 到 一 个 关于 在 一 个 随机 N- 位 串 中 最 长 0 的 串 的 平均 长 度 的 表达 式 : 


lew 1 1-2" 
rE Stee) 
Knuth[18] 曾 研究 过 一 个 非常 类 似 的 量 ， 是 关于 在 异步 加 法 器 中 确定 进位 传送 时 间 的 应 用 中 的 


一 个 量 ， 并 证 明了 这 个 量 为 InN + O(1)。 其 常数 项 有 一 个 摆动 行为 ; 对 图 7-1 仔 细 检 查 ， 将 会 
使 我 们 对 其 原因 有 所 顿悟 。 实 际 上 ， 描 述 摆动 的 函数 与 我 们 将 要 在 本 章 末 关于 trie 树 分 析 的 详 
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细 研 究 是 一 致 的 。 

习题 7.5 求 关 于 随机 位 串 中 前 面 的 位 全 为 1 的 串 的 个 数 的 二 元 生成 函数 ， 并 由 此 来 计算 
这 个 量 的 平均 值 和 标准 差 。 . : 

习题 7.6 ”通过 考虑 不 含 两 个 连续 的 0 的 游程 的 位 串 ， 计 算 下 面 的 关于 斐 波 那 契 数 的 和 : 
Dan Fil? 

习题 7.7” 求 关于 位 串 中 最 长 的 0 的 游程 长 度 的 BGF。 

习题 7.8 在 一 个 随机 位 串 中 ， 标 示 K 个 0 的 游程 的 首次 出 现 的 随机 变量 的 标准 差 是 什么 ? 
”习题 7.9 对 2<N<100， 用 一 个 计算 机 代数 系统 做 出 N- 位 随机 位 串 中 最 长 的 0 游程 的 平 
均 长 度 的 曲线 图 。 : 

习题 7.10 ” 当 利 用 上 节 给 出 的 基本 算法 求 一 个 随机 位 串 中 第 一 个 k 个 0 的 串 时 ， 需 要 检查 
多 少 个 位 ? 
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图 7-1 一 个 随机 位 串 中 最 长 0 游程 的 分 布 (水平 轴 解释 为 分 离 的 曲线 ) 
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任意 模式 。 开 始 时 ， 我 们 可 能 会 猜想 上 面 的 结果 对 任意 固定 的 k 位 模式 都 成 立 ， 但 这 恰恰 
是 错误 的 : 在 一 个 随机 位 串 中 ， 一 个 固定 位 模式 的 第 一 个 出 现 的 平均 位 置 在 很 大 程度 上 依赖 
于 模式 本 身 。 例 如 通过 下 面 的 观察 我 们 很 容易 就 会 发 现 : 平均 而 言 ， 像 0001 这 样 的 模式 往往 
要 比 0000 这 样 的 模式 先 出 现 ， 因 为 一 旦 000 已 经 匹配 ， 那 么 下 一 个 字符 对 于 两 种 模式 出 现 的 概 
率 都 是 112， 然 而 ， 对 于 0000 的 一 个 不 匹配 则 意味 着 0001 在 文本 中 ， 并 且 再 往 后 考虑 四 个 字符 
也 不 可 能 存在 任何 的 匹配 ， 但 是 对 于 0001 的 不 匹配 则 意味 着 0000 在 文本 中 ， 并 且 在 文本 中 下 
一 个 位 上 就 可 能 存在 一 个 匹配 。 实 际 上 ， 模式 的 依赖 关系 可 以 通过 用 一 个 函数 来 匹配 该 模式 
本 身 的 方法 很 容易 地 表示 出 来 。 

定义 一 个 位 事 bob1…bi_ 1 的 自 相关 是 位 事 coc1'…Ci- 1， 其 中 ci 的 定义 是 : 对 0 Sj Sk —- 

1 一 i， 车 b= b,j， 则 ci= 1， 否 则 ci;=0。 其 相应 的 自 相关 多 项 式 可 以 通过 取 位 作为 系 

数 而 得 到 : elZ) = co tye Hte- az? +e o 

自 相关 很 容易 计算 ,第 i 位 可 以 这 样 来 确定 : 向 左 移动 ;个 位 置 ， 如 果 剩 余 的 那些 位 与 原始 
模式 相 匹 配 ， 则 ;位 为 1， 否 则 为 0。 例 如 ， 表 7-4 说 明了 101001010 的 自 相关 是 100001010, A 
其 相应 的 自 相关 多 项 式 为 1 + z+ z 。 注 意 : co 总 是 1。 


表 7-4 101001010 的 自 相关 





1 0 1 0 0 1 0 1 0 
1 0 1 0 0 1 0 1 0 1 
1 0 1 0 0 1 0 1 0 0 
1 0 1 0 0 1 0 1 0 0 
1 0 1 0 0 1 0 1 0 0 
1 0 1 0 0 1 0 1 0 0 
1 0 1 0 0 1 0 0 1 
1 0 1 0 0 0 1 0 0 
1 0 1 0 0 1 0 1 0 1 
1 0 1 0 0 1 0 1 0 0 





定理 7.3 (模式 自 相关 ) KERADO yD, -1 的 位 事 个 数 的 生成 函数 由 下 式 给 定 


c(z) 
z“ +(1—2z)c(z) 


其 中 c(z) 是 关于 该 模式 的 自 相 关 多 项 式 。 
证 明 ”可 利用 符号 法 对 前 面 给 出 的 关于 k 个 连续 的 0 的 模式 情况 的 证 明 进 行 推广 。 我 们 从 5， 
的 OGF 开 始 ， 不 含 p 的 位 串 的 集合 是 : 


S(2)= Sz" un S {不 含 p 的 长 度 为 N 的 位 串 数 }z* 


S(z) = 


类 似 地 ， 我 们 定义 为 以 p 结 束 但 不 含 p 的 其 他 出 现 的 长 度 为 N 的 位 赴 的 类 ， 并 命名 其 相应 的 生 
RERIT). 

现在 ,我们 来 考虑 5, 和 三 两 个 符号 之 间 的 关系 ， 这 两 个 符号 都 能 被 翻译 成 关于 5(z) 和 T(z) 
的 联 立方 程 。 首 先 ，S 和 万 是 不 相交 的 ， 并 且 如 果 我 们 从 属于 8 或 了 的 一 个 位 串 中 去 掉 最 后 一 
位 的 话 ， 我 们 将 得 到 S 中 的 一 个 位 串 〈 或 空 的 位 串 )。 用 符号 形式 表示 出 来 就 是 
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5,+7,=e+5, x{0,D 


因为 关于 {0, 1} 的 OGF 是 2z， 所 以 上 述 表 示 式 可 以 翻译 成 
S(z)+ T(z) = 1+2zS(z) 


其 次 ,考虑 由 4 中 的 一 个 串 后 接 该 模式 所 构成 的 串 的 集合 。 对 于 该 模式 自 相关 中 的 每 个 位 置 让， 
它 都 给 出 了 帮 中 的 一 个 串 后 接 一 个 i- 位 的 “尾部 ”。 用 符号 形式 表示 出 来 就 是 


S x < 模式 >= 万 x < 尾巴 > 
因为 < 模式 > 的 OGF 是 *， 且 < 尾部 >; 的 OGF 是 zz?， 所 以 上 式 可 翻译 成 
S(2)z* = Te) de = T(z)c(z) 


将 相应 于 OGF 的 S(z) 和 T(z) 的 两 个 方程 联 立 求解 ， 将 立即 得 出 定理 所 述 的 结果 。 a 
对 于 由 k 个 0 (或 个 1) 构成 的 模式 ， 其 自 相关 多 项 式 是 1 + z+ +e + lel- 
z)/(1 - z)， 所 以 定理 7.3 和 前 面 的 定理 7.2 中 的 结果 是 一 致 的 。 


推论 具有 自 相关 多 项 式 c(z) 的 一 个 位 束 的 首次 出 现 的 期 望 结尾 位 置 由 2c(1/2) 给 出 。 


表 7-5 给 出 了 关于 不 含 16 个 四 位 模式 中 的 每 一 个 模式 的 位 串 个 数 的 生成 函数 。 我 们 把 这 些 
模式 分 成 了 具有 相同 自 相关 的 四 个 不 向 的 模式 组 。 对 于 每 一 组 ， 该 表 还 给 出 了 OGF 的 分 母 中 
多 项 式 的 主根 以 及 期 望 “ 等 待 时 间 ”( 模式 的 第 一 个 出 现 位 置 )， 这 个 期 望 “ 等 待 时 间 ” 是 由 
自 相关 多 项 式 计 算出 来 的 。 用 与 定理 7.2 的 推论 处 理 表 7-3 一 样 的 方法 ， 我 们 可 以 利用 定理 4.1 
来 导出 这 些 近 似 值 ， 并 应 用 它们 来 近似 等 待 时 间 。 也 就 是 说 : 一 个 N- 位 串 不 含 模式 1000 的 概 
率 大 约 是 (1.83929/2*， 等 等 。 因 此 ， 比 如 说 ， 一 个 10- 位 串 不 含 1000 的 可 能 性 大 约 是 43%， 
与 此 相应 ， 一 个 10- 位 串 不 含 1111 的 可 能 性 大 约 是 69%。 


表 7-5 关于 4- 位 模式 的 生成 函数 和 等 待 时 间 





模 式 H 相 关 OGF + 根 等 & 
1-2’ 
0000 1111 1111 Toa 1.92756--- 30 
0001 0011 O111 
001 0011 0 1000 1 1.83929.… 16 
1000 1100 1110 1-2z+z 
01 110 1+z° 
0010 0100 0 1001 tt 1.86676--- 18 
1001 1011 1101 1-2z+z -z 
2 
0101 1010 1010 lt 1.88320.… 20 


1-2z+z2 -2z +2° 


值得 注意 的 是 ， 这 样 的 结果 通过 生成 函数 竞 然 如 此 容易 得 到 。 尽 管 生成 函数 有 此 重要 的 
本 质 和 广泛 的 应 用 ， 但 直到 串 -查找 算法 的 系统 性 分 析 得 到 尝试 之 后 ， 观察 此 类 问题 的 这 种 简 
单方 法 才 变 得 明显 。 这 些 结果 以 及 更 多 的 相关 结果 在 Guibas 和 Odlyzkof14][15] 的 文章 中 都 给 
出 了 详细 的 阑 述 。 

习题 7.11 计算 下 列 模式 中 的 每 一 个 模式 在 一 个 随机 位 串 中 第 一 次 出 现 的 期 望 位 置 : 
G) k- 1 个 0 后 跟 一 个 1; Gi) 一 个 1 后 跟 k 一 140; (i) 长 度 为 2k 的 0 ~- RAM: 
(iv) 长 度 为 2k +160- 1 交替 的 串 。 
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习题 7.12 ”在 一 个 随机 位 串 中 ， 长 度 为 k 的 位 模式 中 的 哪 一 些 可 能 最 早出 现 ? 哪些 模式 可 
能 最 晚 出 现 ? 

习题 7.13 ”在 一 个 随机 位 串 中 ， 标 记 长 度 为 k 的 一 个 位 模式 的 第 一 个 位 置 的 随机 变量 的 标 
准 差 依赖 于 该 模式 吗 ? 

较 大 的 字母 表 。 上 述 方法 可 直接 应 用 到 较 大 的 字母 表 中 去 。 例 如 、 一 个 实质 上 和 定理 7.3 
相同 的 证 明 将 指出 : 如 果 一 个 M- 字 符 的 字母 表 中 不 存在 某 个 特定 字符 的 上 个 连续 出 现 的 游程 
时 ， 那 么 关于 位 串 的 生成 函数 是 

l-z‘ 
1- Mz+(M-1)z" 
且 在 M- 字 符 的 字母 表 的 一 个 随机 串 中 ， 某 个 特定 字符 的 次 出 现 的 第 一 个 游程 的 平均 结束 位 
SEMM - NM - 1). 

习题 7.14 假设 一 只 猴子 在 一 个 32- 键 的 键盘 上 随机 击 键 。 在 它 碰 巧 打 出 短语 TO BE OR 

NOT TO BE 之 前 ， 它 已 打出 的 字符 数 的 期 望 值 是 多 少 ? 


7.3 规则 表达 式 


使 用 上 述 生 成 函数 的 基本 方法 可 以 进行 很 多 推广 。 为 确定 随机 串 的 性 质 ， 我 们 最 终 导出 
这 样 的 一 些 生 成 函数 : 它们 可 以 对 那些 性 质 有 着 准确 定义 的 串 集 合 的 基数 进行 计数 。 但 是 ， 
研究 串 集合 的 具体 描述 方法 已 被 归 人 了 形式 语言 (formal languages) 的 论 域 ， 有 关 这 一 课题 
的 文献 很 丰富 。 和 任何 一 本 标准 教材 所 描述 的 一 样 ， 如 Eilenberg[5]， 我 们 仅 使 用 形式 语言 的 
基本 原理 。 

形式 语言 理论 中 最 基本 的 概念 就 是 规则 表达 式 (regular expression)， 这 是 一 种 基于 并 、 
连接 、 和 “ 星 ” 操 作 的 串 集 合 的 描述 方法 ， 这 种 方法 可 以 描述 如 下 。 一 个 串 集合 〈 一 个 语言 ) 
是 规则 的 ， 如 果 它 能 用 规则 表达 式 来 描述 。 例 如 ， 描 述 不 含 四 个 连续 的 0 的 游程 的 所 有 位 串 的 
规则 表达 式 是 

S,= (1 + 01 + 001 + 0001)*(e + 0 + 00 + 000) 

在 这 个 表达 式 中 ，+ 表 示 语 言 的 并 ; 两 个 语言 的 乘积 将 被 解释 为 通过 连接 第 一 个 语言 中 的 一 个 
串 与 第 二 个 语言 中 的 一 个 串 所 形成 的 串 的 语言 ; * 是 连接 一 个 语言 自身 任意 多 次 (包括 0 次 ) 
的 简写 。 和 以 前 一 样 ，e 表 示 空 字 。 我 们 在 前 面 导 出 过 相应 该 语言 的 OGF 为 


1-z 





并 通过 对 生成 函数 的 操作 ， 也 推导 过 该 语言 的 基本 性 质 。 我 们 将 看 到 ， 在 此 意义 下 所 考虑 的 
其 他 语言 也 能 很 容易 地 用 规则 表达 式 来 描述 ， 因 此 也 很 容易 用 OGF 来 分 析 。 

我 们 有 -一 种 相当 简单 的 方法 ， 能 把 串 集合 的 形式 描述 (规则 表达 式 ) 转换 成 对 它们 进行 
计数 (OGF) 的 形式 分 析 工 具 。 这 主要 归功 于 Chomsky 和 Schiitzenberger[21。 唯 一 的 要 求 是 规 
则 表达 式 要 具有 无 二 义 性 : 语言 中 任意 一 个 串 都 必须 只 有 一 种 方法 来 导出 。 从 形式 语言 理论 
中 我 们 知道 ， 任 何 一 个 规则 语言 都 可 以 通过 一 个 无 二 义 性 的 规则 表达 式 来 指定 。 

定理 7.4 (关于 规则 表达 式 的 OGF) 设 M4 和 了 B 是 无 二 义 性 的 规则 表达 式 ， 并 假定 几 + B, 

Ax B 和 A* 也 是 无 二 义 性 的 。 如 果 A(z) 是 对 A 计数 的 OGF，B(z) 是 对 Bi 计数 的 OGF， 则 

A(z) + B(z) 是 对 A + B 计 数 的 OGF; 


w 





we 
oo 


ow 
wO 
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A(z)B(z) 是 对 AB 计 数 的 OGF; 

it ToT AA 的 OGF。 

此 外 ， 对 规则 语言 计数 的 OGF 是 有 理 函 数 。 

证 明 ”第 一 部 分 本 质 上 与 我 们 关于 OGF 的 符号 法 的 基本 定理 (定理 3.3) 是 一 致 的 ， 但 在 
这 里 值得 重 述 一 下 ， 因 为 这 种 应 用 非常 重要 。 

如 果 aw 是 A 中 长 度 为 N 的 捉 数 ，bw 是 B 中 长 度 为 N 的 串 数 ， 那 么 aw + bw 是 A + B 中 长 度 为 N 
的 串 数 ， 这 是 因为 语言 无 二 义 性 的 要 求 隐 含 了 ANB AZ. 

类 似 地 ， 和 定理 3.3 的 证 明 完全 一 样 ， 我 们 可 以 使 用 一 个 简单 的 卷 积 来 证 明 关于 AB 的 转 
换 ， 并 证 明 符号 表示 法 

Aet AtA +A + 

隐 含 了 关于 才 " 的 规则 。 此 外 ， 语 言 无 二 义 性 的 要 求 保证 了 语言 中 的 串 是 作为 不 同 的 组 合 对 象 
而 生成 的 ， 因 而 是 被 唯一 计数 的 。 

定理 的 第 二 部 分 是 由 我 们 前 面 所 说 过 的 话 一 一 每 个 规则 语言 都 可 以 通过 无 二 义 性 的 规则 表 
达 式 来 指定 一 一 而 导出 来 的 结果 。 对 于 具备 形式 语言 知识 的 读者 而 言 : 如 果 一 个 语言 是 规则 的 ， 
那么 它 可 以 被 一 个 决定 性 的 FSA 所 识别 ，Kleene 定 理 的 经 典 证 明 也 把 一 个 无 二 义 性 的 规则 表达 
式 与 一 个 决定 性 的 自动 机 联系 在 了 一 起 。 我 们 在 下 面 将 探讨 一 些 相 应 于 FSA 的 算法 含义 。 图 

这 样 ， 我 们 就 有 了 一 个 简单 而 直接 的 方法 ， 把 一 个 规则 表达 式 转换 成 一 个 计数 由 该 规则 
所 描述 的 串 的 OGF， 只 要 该 规则 表达 式 是 无 二 义 性 的 即 可 。 此 外 ， 相 继 应 用 定理 7.4 时 所 得 到 
的 生成 函数 总 是 有 理 函 数 这 一 事实 的 一 个 重要 意义 就 是 : 使 用 诸如 定理 4.1 这 样 的 一 般 工具 ， 
可 以 对 OGEF 的 系数 进行 渐 近 估计 。 

不 含 K 个 0 的 游程 的 串 。 前 面 ， 我 们 给 出 了 关于 3 一 一 不 含 k 个 连续 0 的 出 现 的 位 串 集 合 的 一 
个 规则 表达 式 。 例 如 ， 我 们 来 考虑 84。 由 定理 7.4， 我 们 可 以 立即 找到 关于 

1 + 01 + 001 + ODOO1AJOGFHEz+ 247° +z 








且 关 于 
et 0 + 00 + 000 的 OGF 是 1 +z+z+z 
所 以 ， 和 以 前 一 样 ， 我 们 有 


4 








l-z 
1l+z+z +z? l- 1-2’ 
SO" aay i = 5 
~(z+z +z +z ) l-z Zz 1-2z+z 
1-z 


三 的 倍数 。 规 则 表达 式 
(1(01°0)*10")* 
可 以 生成 申 集合 11,110,1001,1100,1111,…， 它 们 在 二 进 制 表示 法 中 都 是 3 的 倍数 。 应 
用 定理 7.4， 我 们 可 以 找到 关于 长 度 为 N 的 这 种 串 的 个 数 的 生成 函数 : 
1 ` 1 1-z-z z 
ZY 1 2 1-z-2z’ (1-2z)(1+ z) 








A 


这 和 3.3 节 中 我 们 所 过 到 的 第 一 批 GF 中 的 一 个 非常 类 似 : 对 这 个 式 子 进行 部 分 分 式 的 展开 ， 就 
可 以 得 出 结果 (2 + (~1)”)/3。 正 如 我 们 所 期 望 的 那样 ， 在 所 有 起 始 于 1 的 位 捉 中 ， 大 约 有 三 
分 之 一 代表 能 够 被 3 整除 的 数 。 

随机 途径 的 高 度 。 把 0 当 作 “上 ”， 把 1 当 作 “下 ”， 我 们 就 可 以 引出 位 串 与 随机 途径 之 闻 的 
一 个 对 应 关系 。 图 7-2 给 出 了 三 个 随机 途径 的 例子 。 如 果 我 们 限定 当 途 径 第 一 次 到 达 起 始 高 度 
时 它们 就 结束 〈 决 不 降 到 低 于 起 始 高 度 ) ， 那 么 我 们 所 得 到 的 途径 就 对 应 于 5.11 节 中 的 赌 徒 破 
产 序 列 。 于 是 我 们 就 能 很 容易 地 按照 高 度 〈 所 取得 的 最 大 值 )、 用 规则 表达 式 来 统计 这 些 途 径 : 














规则 表达 式 生成 函数 
1 
高 度 <1 (10)* i 二 
1 l-z 
高 度 <2 (1(10)*0)* 1- 1-2z 
a -z 
1 _ _1-2z 
1 2 1-3z+z 
高 度 <3 (1(1(10)*0)*0)* 1- z 
1-z 


A 


图 7-2 三 个 随机 途径 

因为 1 和 0 是 成 对 的 ， 所 以 我 们 只 需 将 它们 中 的 一 个 翻译 成 z>。 这 些 GF 相 似 于 5.9 节 中 导出 的 那 
些 GF， 且 由 定理 5.9 的 推论 ， 途 径 的 平均 高 度 是 ~ VrN 。 这 和 5.11 节 中 讨论 过 的 赌 徒 破产 的 对 
应 关系 是 一 致 的 ， 并 且 这 个 高 度 等 价 于 Catalan 森 林 的 高 (见习 题 5.44)。 

习题 7.15 ”对 所 有 不 出 现 模 式 101101 的 串 集合 给 出 一 个 规则 表达 式 。 其 对 应 的 生成 函数 
是 什么 ? 

习题 7.16 ”在 一 个 随机 位 串 中 ， 第 二 个 不 相交 的 k 个 0 的 囊 的 平均 位 置 是 什么 ? 

习题 7.17 要 导出 具有 规则 表达 式 0*00* 的 N 个 0 的 每 一 个 囊 ， 求 不 同 导出 方法 的 个 数 。 
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习题 7.18 -要 导出 具有 规则 表达 式 0*00* 的 N 个 0 的 每 一 个 串 ， 求 不 同 导出 方法 的 个 数 。 

习题 7.19 ”在 一 个 随机 位 串 中 ， 求 出 现在 第 一 个 长 度 为 4 的 每 一 个 位 模式 之 前 的 0 的 平均 
个 数 。 

习题 7.20 ”假设 一 只 猴子 在 一 个 2- 键 键盘 上 随机 击 键 。 在 它 碰巧 打出 2k 个 0、1 交 替 的 一 
个 串 之 前 ， 它 已 击 键 的 期 望 次 数 是 多 少 ? 


7.4 有 限 状 态 自 动机 与 Knuth-Morris-Pratt 算 法 


串 匹配 的 蛮 力 算法 对 许多 应 用 来 说 是 完全 可 以 接受 的 ， 但 是 正如 我 们 前 面 所 看 到 的 ， 该 
算法 对 高 度 自我 重复 的 模式 而 言 ， 运 行 速度 很 慢 。 解 决 这 一 问题 将 导致 一 个 算法 ， 该 算法 不 
仅 具 有 实践 价值 ， 它 也 把 串 匹配 和 理论 计算 机 科学 的 基本 原理 联系 在 了 一 起 ， 并 可 由 此 导出 
更 一 般 的 算法 。 

例如 ， 当 查找 一 个 个 0 的 串 时 ， 要 克服 7.1 节 中 基本 算法 明显 的 低 效 问题 是 很 容易 做 到 的 : 
当 在 文本 位 置 ;处 遇 到 一 个 1 时 ， 将 “模式 ”指针 /重新 置 到 起 始 位 置 ， 并 在 文本 位 置 ! + 1 处 重 
新 开始 查找 。 这 是 利用 了 全 -0 模式 的 特殊 性 质 ， 但 这 却 引出 了 将 此 性 质 进行 推广 、 以 便 对 所 
有 模式 给 出 一 个 最 佳 算法 的 想法 ， 这 个 想法 由 Knuth、Morris 和 Pratt[19] 于 1977 年 给 出 。 

该 想法 就 是 要 建立 一 个 模式 特定 的 有 限 状 态 自动 机 ， 它 起 始 于 一 个 初始 状态 ， 检 查 文本 
中 的 第 一 个 字符 ; 扫描 文本 字符 ; 并 根据 扫描 的 值 进行 状态 转换 。 当 且 仅 当 文 本 中 的 模式 被 
找到 时 ， 一 些 状 态 才 被 指定 为 终 态 ， 自 动机 将 在 一 个 终 态 上 结束 。 串 查找 的 这 种 实现 是 对 
FSA 的 一 个 模拟 ， 它 建立 在 一 个 状态 索引 表 的 基础 上 上。 这 使 得 串 查找 的 实现 变 得 极为 简单 ， 
如 程序 7.2 所 示 。 该 算法 的 关键 问题 是 对 转换 表 的 计算 ， 且 转换 表 依赖 于 模式 。 

程序 7.2 ” 带 有 FSA 的 串 查找 (KMP 算 法 ) 


procedure fsasearch; 

begin 

state := 0; 

for i := 1 to N do 
begin 
state := next (state, afi]); 
if (state = k) then << match found >> 
end; 

end; 





例如 ， 表 7-6 的 右 端 给 出 了 关于 模式 10100110 的 一 个 相应 的 表 ， 且 图 7-3 给 出 了 该 FSA 的 
一 个 图 形 表示 。 当 此 自动 机 在 下 面 给 出 的 样本 文本 段 上 运行 的 时 候 ， 它 按 指示 取得 状态 转换 。 
(下 面 的 每 个 字符 都 给 出 了 当 其 被 检查 时 FSA 所 在 的 状态 。) 
01110101110001110010000011010011000001010111010001 
0011123431120011120120000112345678 


表 7-6 KMP 状 态 转换 表 的 例子 





10100110 01 
0 1 0 01 
li 11 1 21 
100 100 0 03 
1011 1001 1 41 
10101 10101 3 53 
101000 100000 0 06 
1010010 1000010 2 27 
10100111 10000001 1 81 


不 匹配 自 相 关 第 1 次 匹配 表 
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图 7-3 3%-F 101001108) Knuth-Morris-Pratt FSA 
习题 7.21 给 出 一 个 长 度 为 25 的 文本 串 ， 它 使 图 7-3 的 KMP 自 动机 到 达 第 二 步 的 次 数 达 到 
最 大 。 
这 是 一 个 算法 的 例子 ， 该 算法 十 分 复杂 ， 且 没有 什么 值得 分 析 的 价值 ， 因 为 它 只 对 文本 
中 的 每 个 字符 检查 一 次 。 


定理 7.5 (KMP 囊 匹配 ) 在 一 个 长 度 为 N 的 二 进 制 文本 串 中 查找 一 个 长 度 为 k 的 模式 
时 ，Knuth-Morris-Pratt 算 法 要 做 N 次 位 的 比较 。 


证 明 见 上 面 的 讨论 。 a 

下 一 个 表 的 构造 要 依赖 于 模式 前 缀 的 相关 性 ， 如 表 7-5 所 示 。 我 们 定义 状态 i 对 应 于 这 样 一 
种 情形 ; 模式 中 的 前 i 1 个 字符 在 文本 中 都 已 经 匹配 ， 但 第 个 字符 不 匹配 。 即 状态 i 对 应 于 文 
本 中 一 个 特定 的 i- 位 模式 。 例 如 对 于 表 7-6 中 的 模式 ， 当 且 仅 当 文 本 中 前 4 个 位 是 1010 时 ， 
FSA 在 状态 4。 如 果 下 一 位 是 0， 我 们 将 进入 状态 5; 如 果 下 一 位 是 1， 我 们 知道 这 不 是 一 个 能 
成 功 匹 配 的 前 级 ， 且 文本 中 前 5 个 位 是 10101。 这 时 所 要 做 的 事情 就 是 进入 对 应 于 第 一 点 的 状 
态 ， 在 这 一 点 处 当 模 式 右 移 时 与 自身 匹配 ,在 本 例 中 这 一 点 是 状态 3。 一 般 情况 下 ， 这 一 点 恰 
好 就 是 在 这 个 位 串 的 自 相关 中 第 二 个 1 (或 第 二 个 0， 如 果 第 一 个 1 是 唯一 的 1 时 ) 所 在 的 位 置 
(从 右边 起 按 位 来 统计 )。 

习题 7.22 给 出 关于 模式 110111011101 的 KMP 状 态 转 换 表 。 

习题 7.23 ” 当 使 用 KMP 法 确定 文本 01101110001110110111101100110111011101 
中 是 否 包含 上 一 题 中 的 模式 时 ， 给 出 所 做 的 状态 转换 。 

习题 7.24 ”描述 关于 具有 2Kk 个 0、1 交 替 的 一 个 串 的 状态 转换 表 。 

我 们 -- 直 在 考虑 的 “ 串 -查找 ”问题 等 价 于 确定 文本 串 是 不 是 包含 在 由 《有 二 义 性 的 ) 规 
则 表达 式 

( 0 + 1)*< 模 式 >(0 + 1)* 

所 描述 的 语言 中 。 这 是 关于 规则 表达 式 的 识别 问题 : 给 定 一 个 规则 表达 式 和 一 个 文本 串 ， 确 
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定 该 串 是 否 包含 在 由 该 规则 表达 式 所 描述 的 语言 中 。 一 般 地 ， 规 则 表达 式 的 识别 可 以 通过 建 
立 一 个 FSA 来 进行 ， 且 这 种 自动 机 的 性 质 可 以 利用 我 们 一 直 在 使 用 的 代数 技巧 来 分 析 。 尽 管 
一 般 情况 下 我 使 通常 是 这 么 做 的 ， 然 而 ， 更 专门 的 问题 可 以 用 更 专门 的 技巧 来 有 效 地 解决 。 
KMP 有 限 状 态 自 动机 就 是 使 用 这 种 技巧 的 一 个 最 好 的 例子 。 

对 较 大 的 符号 系统 进行 一 般 化 推广 要 涉及 对 一 个 表 的 转换 问题 ， 尽 管 人 们 对 如 何 改进 这 
个 表 做 过 各 种 各 样 的 研究 ， 但 这 个 表 的 大 小 仍然 与 模式 的 大 小 和 字母 表 大 小 的 乘积 成 正比 。 
有 关 这 种 议题 的 细节 以 及 文本 查找 的 应 用 或 许 能 在 Gonnet 和 Baeza-Yates[12] 中 找到 。 

习题 7.25 对 M = 4， 给 出 关于 模式 313131 的 KMP 状 态 转换 表 。 当 利用 KMP 法 确定 是 否 
文本 1232032313230313131 中 包含 该 模式 时 ， 给 出 所 做 的 状态 转换 。 

习题 7.26 ”直接 证 明 : 由 一 个 决定 性 FSA 所 识别 的 语言 有 一 个 有 理 的 OGF。 

习题 7.27 写 一 个 计算 机 代数 程序 ， 计 算 OGF 的 标准 有 理 型 ， 其 中 OGF 用 来 对 由 一 个 给 
定 的 决定 性 FSA 所 识别 的 语言 进行 计数 。 


7.5 上 下 文 无 关 语 法 


规则 表达 式 允 许 我 们 用 一 种 形式 方法 简洁 地 描述 语言 的 性 质 ， 实 际 上 这 是 经 得 起 分 析 检 
验 的 。 语 言 层 次 中 的 下 一 个 层次 就 是 上 下 文 无 关 的 语言 。 例 如 ， 我 们 可 能 希望 知道 : 

。 有 多 少 个 长 度 为 2N 的 位 串 具 有 N 个 0 和 N 个 13? 

。 给 定 一 个 长 度 为 N 的 随机 位 串 ， 平 均 而 言 ， 在 它 的 前 缀 中 有 多 少 个 前 缀 具有 相同 个 数 的 

0 和 1? 

。 平 均 而 言 ， 在 什么 时 刻 ， 一 个 随机 位 串 中 0 的 个 数 首次 超过 1 的 个 数 ? 

所 有 这 些 问 题 都 能 用 上 下 文 无 关 语 法 来 解决 ， 它 比 规则 表达 式 更 富 表 达 性 。 尽 管 上 述 第 
一 个 问题 在 组 合 学 中 是 一 个 平凡 的 问题 ， 但 从 语言 理论 中 我 们 知道 这 样 的 集合 是 不 能 用 规则 
表达 式 来 描述 的 ， 必 需 使 用 上 下 文 无 关 语言 。 正 如 我 们 将 要 看 到 的 ， 我 们 也 可 以 建立 一 些 包 
含 生成 函数 的 自动 机 制 ， 用 来 对 无 二 义 性 的 上 下 文 无 关 语 言 进行 计数 ， 从 而 打开 研究 大 量 有 
趣 问题 的 大 门 。 . 

首先 ， 我 们 简要 概括 一 下 形式 语言 理论 中 的 一 些 基本 定义 。 一 个 上 下 文 无 关 语 法 是 通过 
用 并 和 连接 乘积 把 非 终 止 符号 和 字母 (也 叫 终止 符号 ) 联系 起 来 的 一 组 产生 式 。 其 基本 操作 
与 规则 表达 式 的 操作 类 似 (不 需要 “ 星 ” 操 作 )， 然 而 由 于 非 线 性 递归 的 可 能 性 ， 非 终止 符号 
的 引入 建立 了 更 强大 的 描述 机 制 。 如 果 一 个 语言 可 以 用 一 个 上 下 文 无 关 语 法 来 描述 ， 那 么 该 
语言 就 是 上 下 文 无 关 的 。 事 实 上 ， 我 们 一 直 都 在 使 用 与 上 下 文 无 关 语法 等 价 的 机 制 来 定义 某 
些 我 们 一 直 分 析 着 的 组 合 结构 。 

这 一 事实 的 最 重要 的 一 个 例子 也 许 就 是 第 5 章 中 二 又 树 的 定义 ， 这 个 定义 可 以 形式 地 改写 
成 下 面 简单 的 无 二 义 性 语法 : l 

<bin tree>:=<ext node>|<int node><bin tree><bin tree> 

<int node>:=0 

<ext node>:=1 
非 终止 符号 是 用 尖 括 号 括 起 来 的 。 我 们 可 以 把 每 个 非 终 止 符号 都 看 成 是 对 一 个 上 下 文 无 关 语 
言 的 描述 ， 这 种 描述 是 通过 直接 对 非 终止 符号 赋值 一 个 字母 表 中 的 字符 ， 或 者 是 通过 并 或 连 
接 乘积 运算 而 定义 的 。 换 句 话说， 我 们 也 可 以 认为 每 个 非 终 止 符号 都 是 一 个 重 写 规则 ， 该 规 
则 指明 了 一 个 非 终止 符号 是 如 何 用 表示 交替 重 写 的 竖 杠 和 表示 连接 的 并 置 来 进行 重 写 的 。 按 
照 第 5 章 所 介绍 的 一 对 一 的 对 应 关系 ， 这 个 语法 将 产生 相应 于 二 叉 树 的 位 串 : 以 先 序 访问 树 的 
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结 点 ， 对 内 部 结 点 写 0， 对 外 部 结 点 写 1。 现 在 ， 回 忆 对 二 又 树 计数 的 生成 函数 ， 它 满足 
G(z) = z + G(z)G(z) 

该 方程 一 一 定义 Catalna OGF 的 方程 一 一 实际 上 与 二 又 树 的 形式 定义 是 完全 一 样 的 ， 只 不 过 所 
用 的 符号 不 同 而 已 。 . 

注意 ， 变 量 赋值 对 应 于 要 进行 计数 的 下 标 。 为 得 到 上 述 函 数 方程 ， 我 们 曾 把 <external 
node> 翻 译 成 z， 并 忽略 <internal node>， 其 中 [zjG(z) 是 具有 N 个 外 部 结 点 的 二 又 树 的 
棵 数 。 或 者 ， 我 们 也 可 以 把 <internal node> 翻 译 成 z-， 并 忽略 <external node>, 以 
获得 其 关于 OGF 的 函数 方程 

, T(z) =142T(z)T(z) 


其 中 [zw]7T(z) 是 具有 RN 个 内 部 结 点 的 二 又 树 的 棵 数 ， 或 者 我 们 可 以 把 两 个 终止 符号 都 翻译 成 z 以 
得 到 
U(z) =z+2U(z)U(z) 


这 个 式 子 是 通过 结 点 总 数 来 对 树 计 数 的 。 

CFG 和 OGF 之 间 的 这 种 关系 是 本 质 性 的 ， 且 在 一 般 情况 下 都 成 立 。 我 们 把 每 个 非 终 止 符 
号 都 看 成 是 对 串 集 合 的 表示 ， 这 个 串 集 合 利用 语法 中 的 重 写 规则 能 够 从 非 终止 符号 导出 。 于 
是 ， 就 像 规 则 表达 式 一 样 ， 我 们 也 有 了 一 个 把 无 二 义 性 的 上 下 文 无 关 语 法 翻译 成 关于 生成 函 
数 的 函数 方程 的 一 般 方 法 : 

© 定义 一 个 对 应 于 每 个 非 终止 符号 的 OGF; 

“把 终止 符号 的 出 现 翻译 成 变量 ; 

。 把 语法 中 的 连接 翻译 成 OGF 的 乘法 ; 

* 把 语法 中 的 并 翻译 成 OGF 的 加 法 。 

当 执 行 这 个 过 程 的 时 候 ， 将 产生 一 个 关于 OGF 的 多 项 式 方程 系统 。 函 数 f(z)， 即 多 项 式 方 
程 P(z, f(z)) = 0 的 根 ， 叫 做 代数 函数 。 这 样 我 们 就 证 明了 首先 由 Chomsky 和 Schiitzenberger[2] 
观察 到 的 一 个 结果 。 


定理 7.6 (关于 上 下 文 无 关 语法 的 OGF) 设 <A> 和 <B> 是 无 二 义 性 上 下 文 无 关 语 法 中 
的 非 终止 符号 ， 并 假定 <A> |<B> 和 <A><B> 也 是 无 二 义 性 的 。 如 果 A(z) 是 对 能 由 <A> 
导出 的 事 计 数 的 OGF，B(z) 是 对 <B> 计 数 的 OGF， 那 么 
A(z) + B(z) 是 对 <A> |<B> 计 数 的 OGF 
A(z) B(z) 是 对 <A><B> 计 数 的 OGF 
此 外 ， 对 无 二 义 性 上 下 文 无 关 语 言 计数 的 OGF 都 是 代数 函数 。 


证 明 见 上 面 的 讨论 以 及 下 面 关 于 Groebner 基 础 消 元 法 的 评论 。 a 

该 定理 用 到 与 定理 7.4 一 样 的 方法 ， 把 关于 语言 的 基本 操作 和 使 用 符号 法 的 OGF 联 系 了 起 
来 ， 但 与 规则 表达 式 相 比 ， 上 下 文 无 关 语 法 的 表达 能 力 在 两 个 重要 方面 所 导致 的 结果 是 不 同 
的 。 首先， 它 允 许 一 个 更 一 般 的 递归 定义 类 型 (递归 可 以 是 非 线性 的 )， 因 此 它 所 产生 的 OGF 
具有 一 个 更 一 般 的 形式 一 方程 组 一 般 是 非 线 性 的 。 其 次 ， 二 义 性 起 到 了 更 为 重要 的 作用 。 
不 是 所 有 上 下 文 无 关 语言 都 有 一 个 无 二 义 性 的 语法 (甚至 连 是 不 是 二 义 性 的 问题 都 决定 不 了 )， 
所 以 我 们 只 能 对 具有 无 二 义 性 语法 的 语言 断定 OGF 是 代数 的 。 相 反 ， 正 如 前 面 所 提 到 的 ， 我 
们 知道 对 所 有 规则 语言 都 存在 一 个 无 二 义 性 的 规则 表达 式 ， 因 此 ， 我 们 能 够 断定 OGF 关 于 所 
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有 规则 语言 都 是 合理 的 。 
定理 7.6 给 出 了 对 应 于 一 个 给 定 的 无 二 义 性 上 下 文 无 关 语 法 的 多 项 式 方程 组 。 我 们 一 旦 有 
了 这 个 方程 组 ， 就 可 以 通过 下 面 的 最 后 两 步 得 到 一 个 “上 下 文 无 关 ” 计 数 问题 的 解 : 
。 求 解 这 个 方程 组 ， 以 得 到 一 个 关于 OGF 的 代数 方程 ; 
“求解 、 展 开 、 以 及 /或 者 建立 关于 系数 的 渐 近 估计 。 
关于 OGE 的 求解 可 以 通过 一 个 消 元 过 程 来 实现 ， 该 过 程 可 以 把 一 个 多 项 式 系统 减少 到 关于 
一 个 变量 z 的 与 所 考虑 的 OGF 相 联系 的 一 个 单一 的 方程 。 例 如 ， 在 某 些 计算 机 代数 系统 中 
实现 的 Groebner 基 (Groebner basis) 算法 可 用 来 达 此 目的 ( 见 Geddes 等 的 [11] ) 。 特 别 地 ， 
定理 7.6 表 明 : 如 果 Z(z) 是 一 个 无 二 义 性 上 下 文 无 关 语 言 的 OGFE， 则 对 某 个 二 元 多 项 式 P(z， 
y), EPR, L(z)) = 0。 正 如 在 下 面 的 例子 中 我 们 将 要 看 到 的 那样 ， 在 某 些 情况 下 ， 那 个 方 
程 的 解 是 一 个 能 被 展开 的 显 式 形式 。 在 其 他 情况 下 ， 可 能 需要 更 先进 的 工具 来 对 系数 建立 
一 个 浙 近 形式 ( 见 参 考 文献 [91)。 
2- 有 序 排列 。6.6 节 中 关于 对 2- 有 序 排 列 计 数 的 讨论 对 应 于 建立 串 的 下 列 无 二 义 性 上 下 文 
无 关 语 法 〈 串 中 县 有 相同 个 数 的 0 和 1 ): i 
<S>:= <U>1<S> | <D>0<S> |e 
<U>:=<U><U>1 | 0 
<D>:=<D><D>0 | 1 
该 语法 中 的 非 终止 符号 可 以 解释 如 下 : <S> 对 应 于 所 有 具有 相同 个 数 的 0 和 1 的 位 串 ; <U> 对 应 
于 0 比 1 恰 好 多 一 个 的 所 有 位 串 ， 且 在 这 些 位 串 中 不 存在 具有 相同 个 数 的 0 和 1 的 前 缀 ; <D> 对 
应 于 1 比 0 恰好 多 一 个 的 所 有 位 串 ， 且 在 这 些 位 串 中 不 存在 具有 相同 个 数 的 0 和 1 的 前 缕 。 
现在 ， 根 据 定理 7.5， 把 语法 中 的 每 个 产生 式 都 翻译 成 关于 生成 函数 的 一 个 方程 : 
S(z) = 2U(z)S(z) + 2D(z)S(z) + 1 | 
U(z) = z+2U"(z) 
D(z) = z+ 2D’ (z) 


当然 ， 在 这 种 情况 下 ，U(z) 和 D(z) 都 是 常见 的 来 自 于 树 的 计数 中 的 生成 函数 ， 所 以 我 们 可 以 直 
接地 求解 ， 从 而 得 到 


ve = D(z) = = ~i-42| 


将 其 代入 第 一 个 方程 得 
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S(z) = MA RBO -| w) 


1 
l vi- 427 
这 和 我 们 所 期 望 的 结果 是 一 致 的 。 . 

Groebner 基 消 元 法 。 一 般 说 来 ， 我 们 可 能 得 不 到 显 式 的 解 ， 所 以 ， 我 们 在 此 简要 叙述 
一 下 Groebner 基 消 元 过 程 是 如 何 系统 地 求解 这 个 方程 组 的 。 首 先 ， 我们 要 注意 U(z) = D(z)， 
因为 二 者 均 满足 相同 的 (不 可 约 的 ) 方程 。 因 此 ， 我 们 所 需要 做 的 事情 就 是 从 方程 组 中 消 
KU l 
P=S-22US-1=0 
P, =U-2zU’ -z=0 
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一 般 的 策略 是 利用 形 如 4P - 8Q 的 重复 合并 ， 从 系统 中 消去 高 次 单项 式 ， 其 中 4、B 是 单项 式 ， 
P、Q 是 有 待 消 元 的 多 项 式 。 在 这 个 例子 中 ， 是 通过 做 UP - 2SP:， 交 错 地 消去 性， 从 而 得 到 
FP, = -US-U+225=0 


接 下 来 ， 通 过 2zP; - P!， 消 去 US 项 ， 因 此 我 们 得 到 
P, = -2Uz + 48z° -S+1=0 


最 后 ， 将 上 式 与 P -SP 联合， 完全 消去 U， 得 到 
PaS’-1-45z =0 


因此 ， 和 前 面 的 结果 一 样 ，S(z)=1/V1-4z . 
我 们 对 该 例子 加 入 了 一 些 细节 以 阐明 一 个 基本 观点 : 定理 7.5 给 出 了 一 个 自动 的 方法 对 无 
二 义 性 上 下 文 无 关 语 言 计数 。 对 于 能 够 执行 必要 常规 计算 的 计算 机 代数 系统 而 言 ， 这 一 点 具 
有 特别 重要 意义 。 
选票 问题 。 上 述 最 终 的 那个 结果 是 初等 的 ， 但 上 下 文 无 关 语言 自然 应 该 是 非常 一 般 的 ， 
所 以 可 用 相同 的 技巧 来 解决 一 大 类 问题 。 这 类 问题 中 最 突出 的 一 个 例子 也 许 就 是 选 系 问题 : 
假定 在 一 次 选举 中 ， 候 选 人 0 得 到 了 N + k 票 ， 候 选 人 1 得 到 了 N 票 ， 那 么 在 整个 计 票 过 程 中 ， 候 
选 人 0 总 是 领先 的 概率 是 多 少 ? 在 目前 情况 下 ， 该 问题 可 以 通过 对 N + k 个 0 和 WN 个 1 的 位 串 计 数 
来 解决 ， 这 些 位 串 应 满足 这 样 的 性 质 : 不 存在 相同 个 数 的 0 和 1 的 前 缀 。 这 个 数目 也 是 穿越 一 
个 (N+ 月 x N 的 格子 而 不 触 到 主 对 角 线 的 路 径 数 。 对 上 = 0， 答 案 是 零 ， 因 为 如 果 二 候选 人 都 有 
N 票 ， 那 么 在 计 票 过 程 中 ， 必 有 一 个 时 刻 他 们 打 成 平局 ， 哪怕 仅仅 是 在 结束 的 时 刻 。 对 上 = 1， 
由 我 们 前 面 对 2- 有 序 排列 的 讨论 可 知 ， 此 数 恰好 是 [z**']U(z)。 对 k= 3， 我 们 有 语法 
<B>:=<U><U><U> 
<U>:=<U><U>1 | 0 
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定理 7.7 ARAM) 一 个 随机 位 事 中 0 比 1 多 k 个 ， 且 不 存在 相同 个 数 的 0 和 1 的 前 组 
的 概率 是 k/(2N + 月 。 


证 明 根据 上 面 的 讨论 ， 其 结果 可 由 下 式 给 出 
[z n U _ 天 
2N+k 2N+k 
(x) 





这 里 ， 系 数 是 通过 对 拉 格 朗 日 反 演 的 直接 应 用 而 到 的 《 见 3.10 节 )。 a 

选票 问题 有 着 丰富 的 历史 ， 这 要 追 潮 到 1887 年 。 更 详细 的 讨论 以 及 大 量 的 相关 问题 ， 可 
参见 由 Feller[6] 和 Comtet[3] 所 写 的 著作 。 

这 种 类 型 的 结果 除了 与 树 有 直接 的 关系 之 外 ， 还 经 常 出 现在 算法 分 析 与 所 谓 的 历史 或 操 
作 序 列 的 动态 算法 分 析 和 数据 结构 的 联系 中 。 例 如 ， 选票 问题 等 价 于 确定 如 下 事件 的 概率 : 
在 一 个 初始 为 空 的 下 推 栈 中 进行 “push” 和 “pop” 操 作 时 ， 在 不 许 对 空 栈 实行 pop 操 作 、 也 
不 许 在 栈 中 存放 k 个 项 的 意义 下 ， 一 个 随机 操作 的 序列 是 “合法 的 ”的 概率 。 其 他 应 用 可 能 要 
涉及 更 多 的 操作 以 及 对 合法 序列 的 不 同 定义 一 一 下 面 的 习题 中 给 出 了 一 些 这 样 的 例子 。 这 种 
问题 通常 都 能 用 上 下 文 无 关 语法 来 解决 。 此 种 类 型 的 许多 应 用 在 Pratt[21] 早 期 的 文章 中 都 曾 讨 
text; 也 可 参见 Knuth{171。 





习题 7.28 给 定 一 个 长 度 为 N 的 随机 位 串 ， 平 均 而 言 ， 它 有 多 少 个 具有 相同 个 数 的 0 和 1 的 
前 级? 

习题 7.29 ”在 一 个 随机 位 串 中 ，0 的 个 数 从 不 超过 1 的 个 数 的 概率 是 多 少 ? 

习题 7.30 ”给 定 一 个 长 度 为 N 的 随机 位 串 ， 平 均 而 言 ， 它 有 多 少 0 比 1 多 K 个 的 前 级? 在 一 
个 随机 位 串 中 ，0 的 个 数 多 于 1 的 个 数 从 不 超过 大 的 概率 是 多 少 ? 

习题 7.31 假定 一 个 栈 的 固定 容量 为 M。 对 一 个 初始 为 空 的 下 推 栈 进 行 N 个 “push” 和 
“pop” 操 作 的 一 个 随机 序列 ， 当 栈 空 时 从 不 进行 pop 操 作 ， 或 当 栈 满 时 从 不 进行 push 操 作 的 概 
率 是 多 少 ? 

习题 7.32 [Pratt] 考 虑 一 个 数据 结构 ， 它 有 一 个 “插入 ”操作 和 两 个 不 同类 型 的 “删除 ” 
操作 。 在 下 列 意义 下 : 数据 结构 在 随机 操作 序列 之 前 和 之 后 是 空 的 ， 且 删除 操作 总 是 对 非 空 
数据 结构 进行 的 ， 一 个 长 度 为 N 的 随机 操作 序列 是 合法 的 概率 是 多 少 ? 

习题 7.33 ”回答 和 上 题 相 同 的 问题 ， 但 是 把 其 中 的 一 个 “删除 ”操作 改 成 一 个 “检查 - 
操作 ， 检 查 操 作 要 对 非 空 的 数据 结构 进行 ， 但 它 不 删除 任何 项 。 

习题 7.34 ”假定 一 只 猴子 在 一 个 32- 键 的 键盘 上 随机 地 击 键 ， 键 盘 上 有 26 个 字母 R 到 2 ， 
有 符号 +、* 、( 与 ) 、 空 格 和 各 点 。 在 猴子 碰巧 打出 一 个 合法 的 规则 表达 式 之 前 ， 它 已 击 出 的 
期 望 字 符 数 是 多 少 ? 假定 空格 可 以 出 现在 规则 表达 式 中 的 任何 位 置 ， 且 一 个 合法 的 规则 表达 
式 必须 用 图 括号 括 起 来 ， 而 且 表 达 式 的 末端 恰好 有 一 个 句点。 


7.6 trie 树 


任意 N 个 不 同位 串 (长 度 也 可 以 不 同 ) 的 集合 唯一 对 应 一 棵 trie 树 ， 也 即 一 个 带 标 号 的 二 
又 树 结构 。trie 树 可 以 用 来 表示 串 集合 ， 包 括 文本 串 中 所 有 模式 的 集合 ， 所 以 它们 提供 了 在 文 
本 中 进行 模式 查找 的 一 个 快速 方法 ， 并 且 也 可 以 代替 传统 的 关键 字 - 查 找 应 用 中 的 二 又 树 。 
trie 树 也 出 现在 了 计算 机 科学 的 许多 其 他 应 用 中 。 

首先 ， 我 们 可 以 把 串 集 合 和 二 又 树 联系 起 来 。 给 定 一 棵 二 又 树 ， 将 左 链 标 为 0 ， 右 链 标 为 
1， 用 从 根 到 每 个 外 部 结 点 的 路 径 上 链 的 标号 来 确定 每 个 外 部 结 点 。 这 就 给 出 了 从 二 又 树 到 位 
串 集合 的 一 个 映射 。 例 如 ， 图 7-4 中 左边 的 那 棵 树 可 以 映射 到 位 串 集 合 

000 001 01 10 11000 11001 11010 11011 11100 11101 1111 
中 间 的 那 棵 树 映射 到 

0 100 10100 1010100 101010100 1010101010 1010101011 10101011 101011 1011 11 
右边 的 那 棵 树 上 映射 到 

0000 0001 0010 0011 0100 0101 011 100 101 110 111 
用 这 种 方法 得 到 的 所 有 位 串 的 集合 在 结构 上 具有 前 级 无 关 的 性 质 : 任何 一 个 串 都 不 是 另外 的 
串 的 前 级 。 


图 7-4 三 棵 trie 树 ， 每 棵 都 表示 11 个 位 串 
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反之 ， 给 定 一 个 位 串 集 合 ， 其 相应 的 二 叉 树 结构 也 可 以 通过 把 该 集合 按照 串 的 前 导 位 进 
行 划 分 而 递归 地 建立 起 来 ， 正 如 下 面 的 正式 定义 一 样 。 假 设 没 有 一 个 位 串 是 其 他 位 串 〈 严 格 ) 
的 前 组 。 这 种 假设 是 合理 的 ， 例 如 ， 当 分 析 trie 树 的 性 质 时 ， 如 果 串 无 限 长 的 话 ， 这 种 假设 也 
带 来 一 定 的 方便 。 


定义 ”给 定 一 个 前 组 -无 关 的 位 串 集合 避 ， 其 相关 的 trie 树 是 按 如 下 方法 递归 定义 的 一 
棵 二 又 树 。 如 果 了 是 空 集 ， 则 其 trie 树 为 空 且 由 一 个 空 外 部 结 点 来 表示 。 如 果 1B = 1， 
则 trie 树 由 对 应 于 位 串 的 一 个 外 部 结 点 组 成 。 否 则 ， 定 义 Bo (B, 2A) 是 通过 
取 B 的 起 始 于 0 (1， 分 别 地 ) 的 所 有 成 员 ， 并 去 掉 每 个 成 员 中 的 初始 位 而 得 到 的 位 
串 的 集合 。 于 是 ， 关 于 名 的 trie 树 是 一 个 内 部 结 点 ， 其 左 方 连接 着 关于 Bo 的 trie 树 ， 
其 右 方 连接 着 关于 B 的 trie 树 。 


尽管 上 面 的 定义 是 trie 树 最 常见 的 定义 和 使 用 方式 ， 但 通过 对 内 部 结 点 赋 以 一 个 相关 的 附 
加 信息 ， 就 能 用 来 处 理 前 缀 串 了 。 

N 个 位 串 的 trie 树 具有 N 个 非 空 的 外 部 结 点 ， 其 中 每 一 个 结 点 对 应 一 个 位 串 ， 且 该 trie 树 可 
能 有 任意 多 个 空 的 外 部 结 点 。 和 前 面 一 样 ， 把 0 当成 “ 左 ”，1 当 成 “ 右 ”， 我 们 可 以 通过 从 根 
结 点 开始 ， 沿 着 trie 树 向 下 查找 ， 并 根据 申 中 的 位 从 右 向 左 读 出 的 值 来 决定 向 左 或 是 向 右 查 找 ， 
以 到 达 对 应 于 位 串 的 外 部 结 点 。 一 旦 一 个 位 串 能 够 从 trie 树 的 所 有 其 他 位 串 中 区 分 开 来 时 ， 这 
个 过 程 就 在 对 应 于 该 位 串 的 外 部 结 点 处 停止。 

这 个 映射 不 是 一 对 一 的 。 许 多 位 串 集合 都 能 映射 到 同一 棵 树 结构 ， 这 里 有 两 个 原因 : 

“不 是 所 有 外 部 结 点 都 必须 对 应 一 个 位 串 ; 

。 对 位 串 加 入 更 多 的 位 并 不 改变 结构 。 

我 们 将 依次 性 虑 这 两 个 问题 。 

空 外 部 结 点 对 应 于 这 样 的 情形 : 一 些 位 串 具 有 相同 的 位 ， 以 致 于 不 能 把 它们 从 集合 的 其 
他 位 串 中 区 分 开 来 。 例 如 ， 如 果 所 有 的 位 串 都 从 0- 位 开始 ， 那 么 相应 于 trie 树 的 根 的 右 子 结 点 
将 不 对 应 集合 中 任何 一 个 位 串 。 这 样 的 结 点 可 以 在 trie 树 中 到 处 出 现 。 

例如 ， 图 7-5 给 出 了 11 个 外 部 结 点 的 3 棵 trie 树 ， 其 中 3、9 和 1 分 别 是 空 的 。 在 图 中 ， 空 结 点 
用 小 黑 方块 表示 ， 非 空 结 点 〈 每 一 个 都 对 应 一 个 串 》 用 稍 大 一 点 的 空白 方块 表示 。 左 边 的 那 
棵 树 代表 串 集合 

000 001 11000 11001 11010 11011 11100 11101 
中 间 的 那 棵 树 代 表 集 合 

1010101010 1010101011 

右边 的 那 棵 树 代表 集合 

0000 0001 0010 0011 0100 0101 100 101 110 111 
我 们 可 以 对 随机 位 串 所 需要 的 空 外 部 结 点 的 个 数 作出 一 个 准确 的 分 析 。 我 们 也 可 以 这 样 来 处 
理 : 使 不 需要 的 位 不 直接 对 应 trie 树 结构 中 不 需要 的 结 点 ， 而 是 用 另外 一 种 方式 来 表示 。 下 面 
我 们 就 比较 详细 地 讨论 这 些 事情 。 

在 位 申 中 加 入 更 多 的 位 并 不 改变 结构 这 一 事实 是 由 定义 中 的 “如 果 1 人 = 1” 语 句 而 引起 
的 ， 因 为 在 许多 应 用 中 ， 一 旦 位 串 被 区 分 开 ， 就 停止 对 trie 树 继续 分 支 是 很 方便 的 。 对 于 有 限 
位 串 而 言 ， 这 个 条 件 可 以 去 掉 ， 分 支 可 以 继续 进行 ， 直 到 每 个 位 串 都 到 达 末 端 为 止 。 我 们 把 
这 样 的 trie 树 叫 租 关 于 位 串 集合 的 满 trie 树 。 反 过 来 ， 我 们 把 这 样 的 位 串 集合 称 为 关于 trie 树 的 
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最 小 的 位 串 集合 。 这 些 集合 都 只 不 过 是 对 从 根 结 点 到 每 个 非 空 外 部 结 点 的 路 径 的 编码 。 例 如 ， 
我 们 对 图 7-4 和 图 7-5 所 给 出 的 位 串 集 合 也 因而 都 是 最 小 的 。 
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图 7-5 3 棵 trie 树 ， 分 别 表示 8、2、10 个 位 串 
我 们 所 给 出 的 递归 定义 导致 了 具有 另外 两 个 性 质 的 二 又 树 结构 : (i) 外 部 结 点 可 能 是 空 结 
点 ; Gi) 叶子 的 子 结 点 必须 是 非 空 结 点 。 就 是 说 ， 我 们 决 不 会 有 两 个 空 结 点 是 兄弟 结 点 ,或 
者 有 一 个 空 结 点 和 一 个 非 空 结 点 是 兄弟 结 点 。 图 7-6 给 出 了 所 有 具有 2 个 、3 个 和 4 个 外 部 结 点 
的 不 同 trie 树 。 . 
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图 7-6 有 2 个 、3 个 和 4 个 外 部 结 点 的 trie 树 
图 7-7 给 出 了 相应 于 具有 5 个 外 部 结 点 的 每 种 树 形 的 最 小 位 串 集合 〈 每 个 trie 树 都 有 5 个 外 部 
结 点 ， 且 所 有 5 个 外 部 结 点 都 是 非 空 的 ) 。 该 图 形 也 对 相应 于 具有 5 个 外 部 结 点 的 任意 trie 树 的 
最 小 位 捉 集合 作出 了 规定 : 在 图 形 中 ， 可 以 直接 删 去 相应 于 树 结构 中 任何 与 空 外 部 结 点 相对 
应 的 位 串 〈 任 何 外 部 结 点 ， 如 果 它 不 是 叶子 的 子 结 点 ， 那 么 它 就 可 能 是 空 的 )。 

: 假定 每 种 trie 树 结构 都 是 等 可 能 的 ， 我 们 就 能 研究 它们 的 性 质 〈 用 类 似 于 第 5 章 中 Catalan 
树 的 方法 ) ; 我 们 把 这 类 问题 留 作 了 下 面 的 习题 。 不 过 ， 在 算法 分 析 的 场合 下 ， 我 们 还 是 把 
精力 主要 集中 在 位 串 和 位 串 的 算法 上 -一 最 常 应 用 trie 树 的 地 方 一 一 并 集中 精力 把 trie 树 看 成 是 
有 效 地 识别 一 组 串 的 机 制 、 有 效 地 表示 串 集合 的 结构 ， 并 能 用 它们 来 处 理由 随机 串 引 出 的 概 
率 分 布 。 下 面 ， 我 们 将 考虑 trie 树 的 几 个 算法 的 应 用 。 
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图 7-7 关于 5 个 外 部 结 点 〈 均 为 非 空 ) trie 树 的 位 串 集 合 
习题 7.35 ”给 出 3 棵 trie 树 ， 使 它们 对 应 于 图 7-5 中 所 给 出 的 串 集 合 ， 但 每 个 串 要 按 从 右 向 
左 的 顺序 阅读 。 


习题 7.36 5 个 3- 位 位 囊 的 不 同 集合 共有 (3 _ 56 个 ， 哪 哥 trie 树 与 这 些 集合 中 的 大 多 数 集 


合 相 对 应 ? 哪 棵 trie 树 与 这 些 集合 中 的 极 少 数 集合 相对 应 ? 

习题 7.37 ”有 多 少 棵 不 同 的 trie 树 具有 N 个 外 部 续 点 ? 

习题 7.38 ”在 一 棵 “随机 ”trie 树 中 ， 外 部 结 点 是 空 结 点 的 比例 是 多 少 假定 每 个 不 同 的 
trie 树 结构 都 等 可 能 地 出 现 ) ? 

习题 7.39 ”给 定 一 个 有 限 的 囊 集合 ， 设 计 一 个 简单 的 测试 程序 ， 确 定 是否 有 任何 空 外 部 
结 点 在 对 应 的 trie 树 中 。 


7.7 trie 算 法 


在 数字 计算 中 ， 二 进 制 串 几 乎 无 处 不 在 ， 而 trie 树 结构 又 与 二 进 制 串 的 集合 有 着 自然 的 对 
应 关系 ， 因 此， 有 许多 重要 算法 都 要 应 用 trie 树 也 就 毫 不 奇怪 了 。 本 节 ， 我 们 将 纵览 几 个 这 样 
的 算法 ， 以 激发 我 们 将 要 在 下 一 节 中 对 trie 树 的 性 质 进行 详细 研究 的 兴趣 。 

trie 树 与 数字 查找 。trie 树 可 作为 在 一 组 二 进 制 数据 中 用 类 似 于 二 又 查找 树 的 方式 进行 查 
找 的 算法 基础 ， 只 不 过 是 用 位 的 比较 来 代替 关键 字 的 比较 。 

查找 trie 树 。 把 位 囊 当 作 关 键 字 ， 我 们 可 以 把 trie 树 当 作 诸如 程序 5.2 那 样 的 传统 查找 算法 
的 基础 : 令 x 为 根 ，b 为 0， 然 后 沿 着 trie 树 向 下 查找 ， 直 到 遇 到 一 个 外 部 结 点 时 为 止 ， 将 b 增 1， 
车 关键 字 的 第 b 位 是 0， 则 令 x 为 x^ . 工 ， 或 者 ， 若 关键 字 的 第 b 位 是 1， 则 令 x 为 xz“ . 工 。 如 果 使 
查找 终止 的 外 部 结 点 是 空 结 点 ， 那 么 位 串 就 不 在 trie 树 中 ， 否 则 ， 就 可 以 用 相应 的 位 串 与 关键 
字 进 行 比较 。 在 包含 关键 字 的 集合 的 适当 条 件 下 ， 这 是 一 个 非常 有 效 的 查找 算法 ; 细节 可 见 
Knuthf17] 或 Sedgewick[24]。 下 面 的 分 析 可 用 来 确定 trie 树 的 性 能 是 如 何 与 一 个 给 定 的 应 用 中 
二 又 查找 树 的 性 能 进行 比较 的 。 正 如 我 们 在 第 1 章 所 讨论 过 的 那样 ， 要 回答 这 样 的 问题 ， 第 一 
件 要 考虑 的 事情 就 是 实现 的 性 质 。 在 这 个 特定 的 情形 ， 这 件 事情 尤其 重要 ， 因 为 在 访问 关键 
字 的 个 别 位 时 ,如果 处 理 不 慎 ， 对 某 些 计 算 机 而 言 开销 可 能 会 相当 大 。 

习题 7.40 ”解释 如 何 修改 一 棵 trie 树 ， 以 把 增加 的 一 个 新 位 串 反映 到 它 所 代表 的 位 串 集 合 
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上 (对 应 一 个 二 叉 查 找 树 的 插入 ) 。 

Patricia trie 树 。 我 们 将 在 下 面 看 到 ， 在 一 棵 随机 trie 树 中 大 约 有 44% 的 外 部 结 点 都 是 空 的 。 
这 个 比例 之 大 可 能 令 人 难以 接受 。 对 这 个 问题 ， 我 们 可 以 通过 “瓦解 ” 单 向 内 部 结 点 ， 并 对 
每 个 结 点 都 保留 待 检查 的 位 的 下 标 来 加 以 避免 。 尽 管 对 每 个 结 点 都 必须 附加 相关 的 信息 ， 但 
这 种 trie 树 的 外 部 路 径 长 度 还 是 在 某 种 程度 上 变 小 了 。 识 别 Patricia trie 树 的 关键 一 点 就 是 它 不 
存在 空 的 外 部 结 点 ， 或 等 价 地 说 ， 它 有 N - 1 个 内 部 结 点 。 利 用 Patricia trie 树 来 实现 查找 和 插 
入 有 许多 可 用 的 技巧 。 细 节 问 题 在 Knuth[17] 或 Sedgewick[24] 中 能 够 找到 。 

基数 交换 排序 。 正 如 在 第 1 章 所 提 到 的 ， 等 长 的 一 组 位 串 可 以 通过 下 面 的 方式 来 进行 排序 : 
对 它们 进行 分 组 ， 把 那些 所 有 0 打头 的 位 串 放 在 那些 所 有 1 打头 的 位 串 前 面 (其 所 使 用 的 过 程 
类 似 于 Quicksort 的 分 组 过 程 ) ， 然 后 递归 地 对 这 两 部 分 进行 排序 。 这 种 方法 〈 称 为 基数 排序 ) 
与 trie 树 之 间 的 关系 和 Quicksort 与 二 叉 查 找 树 之 间 的 关系 是 一 样 的 。 该 排序 所 需 时 间 基 本 上 与 
所 要 检查 的 位 数 成 正比 。 对 于 由 随机 的 位 组 成 的 关键 字 来 说 ， 结 果 证 明 所 要 检查 的 位 数 和 一 棵 
随机 trie 树 的 “ 非 空 外 部 路 径 长 ”"”， 即 从 根 结 点 到 每 个 非 空 外 部 结 点 的 距离 之 和 是 一 样 的 。 

trie 树 编码 。 任 何 一 棵 带 有 标号 的 外 部 结 点 的 trie 树 都 对 结 点 的 标号 定义 了 一 个 前 级 码 。 
例如 ， 如 果 对 图 7-4 中 左边 的 那 棵 trie 树 中 的 外 部 结 点 从 左 到 右 用 字母 


CEFILMNOPRS 


011011000110011110011101001111111111011010 
就 是 对 词组 
FILE COMPRESSION 

的 编码 。 

解码 很 简单 : 从 trie 树 的 根 及 位 串 的 起 始 位 置 开 始 ， 按 照 位 串 所 指示 的 方向 〈 磁 到 0 向 左 ， 
碰 到 1 向 右 ) 遍历 trie 树 ， 每 当 遇 到 一 个 外 部 结 点 时 ， 输 出 标号 并 从 根 处 重新 开始 。 如 果 把 频 
繁 使 用 的 字母 对 路 径 较 短 的 结 点 进行 标号 ， 那 么 ， 在 这 样 的 编码 中 所 用 的 位 数 将 大 大 少 于 标 
准 编码 中 所 用 的 位 数 。 著 名 的 哈 夫 曼 编 码 法 对 给 定 的 字符 频率 找到 一 个 最 佳 的 trie 树 结构 ( 见 
Sedgewick[24] ) 。 

trie 树 与 模式 匹配 。trie 树 也 可 以 用 于 文本 文件 中 查找 多 个 模式 时 的 一 个 基本 数据 结构 。 
例如 ，trie 树 在 自然 语言 大 词典 的 计算 机 化 和 其 他 类 似 的 应 用 中 已 得 到 了 成 功 的 运用 。 正 如 下 
面 我 们 将 要 描述 的 ， 根 据 不 同 的 应 用 ，trie 树 可 以 包含 模式 或 者 文本 。 

用 后 组 trie 树 进行 事 查 找 。 在 文本 串 固定 (如 一 个 词典 )， 有 和 且 有 许多 模式 查找 需要 处 理 的 
应 用 中 ， 查 找 时 间 可 以 通过 对 文本 的 预 处 理 得 到 大 大 减少 ， 方 法 如 下 : 假设 文本 串 是 N 个 串 的 
集合 ， 每 个 串 都 从 文本 串 中 的 每 一 个 位 置 开 始 ， 向 文本 串 的 末端 延伸 (在 末端 [个 字符 处 停止 ， 
其 中 k 是 要 查找 的 最 短 模式 的 长 度 )。 通 过 这 组 串 建立 一 棵 trie 树 (这 样 的 trie 树 叫做 关于 文本 
串 的 后 级 trie 树 )。 为 得 知 一 个 模式 是 否 在 文本 中 出 现 ， 从 根 开始 沿 着 trie 树 向 下 查找 ， 和 以 往 
一 样 ， 根 据 模式 的 位 ， 碰 到 0 时 向 左 查 找 ， 磁 到 1 时 向 右 查 找 。 如 果 到 达 了 一 个 空 的 外 部 结 点 ， 
则 模式 不 在 文本 中 ; 如 果 模 式 的 位 在 一 个 内 部 结 点 处 已 用 尽 ， 那么 模式 就 在 文本 中 ; 如 果 到 
达 了 一 个 外 部 结 点 ， 那 么 把 模式 中 剩余 的 位 与 外 部 结 点 中 所 表示 的 文本 位 进行 比较 ， 以 确定 
是 否 存在 一 个 匹配 。 

下 面 的 分 析 表 明 ， 这 个 过 程 平均 需要 O(lgN) 次 位 的 检查 ， 比 起 基本 算法 的 开销 O(N) 来 说 ， 
这 是 一 个 巨大 的 改进 ， 尽 管 建立 树 时 有 一 个 初始 开销 ， 但 在 同一 个 文本 中 查找 多 个 模式 时 ， 
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这 个 方法 则 是 非常 有 用 的 。 程 序 7.3 给 出 了 这 一 过 程 的 实现 。 该 程序 调用 了 三 个 简单 的 过 程 : 
prefix， 当 其 第 一 个 参数 是 第 二 个 参数 的 前 级 时 ， 它 返回 一 个 真 值 ， 否 则 返回 假 ; 
firstbit， 它 返回 参数 的 第 一 位 ; otherbits， 它 从 参数 中 删 去 第 一 个 位 。 在 大 多 数 计算 
机 上 ， 都 有 许多 实现 这 些 过 程 的 非常 有 效 的 方式 和 方法 。 

程序 7.3 用 后 缀 trie 树 进行 串 查 找 


function search(v: integer, x: link): link; 
begin 
if x = NIL << no match >> else 
if prefix(v, x*. key) << match found >> else 
if firstbit(v) = 0 then search(otherbits(v), x*.left) 
else search{otherbits(v), x*.right) 
end; 





查找 多 个 模式 。trie 树 也 可 用 来 在 文本 的 一 趟 扫描 中 查找 多 个 模式 ， 方 法 如 下 : WE, R 
据 模 式 串 建立 一 棵 完全 trie 树 。 然 后 ， 对 文本 串 中 的 每 一 个 位 置 ?， 从 trie 树 的 顶部 开始 ， 沿 着 
trie 树 向 下 查找 ， 遇 到 文本 中 的 0 时 向 左 查找 ， 遇 到 文本 中 的 1 时 向 右 查 找 ， 并 在 这 个 过 程 中 进 
行 字符 匹配 。 这 样 的 查找 一 定 会 在 一 个 外 部 结 点 处 停止 。 如 果 该 外 部 结 点 是 非 空 的 ， 那 么 查 
找 成 功 : trie 树 所 表示 的 串 之 一 就 被 找到 了 ， 它 起 始 于 文本 中 第 ;个 位 置 。 如 果 外 部 结 点 是 空 的 ， 
那么 由 trie 树 所 表示 的 串 都 不 会 起 始 于 i， 因 此 文本 指针 可 以 增加 到 i + 1， 并 从 trie 树 的 顶部 重 
新 开始 上 述 过 程 。 下 面 的 分 析 意 味 着 这 种 查找 需要 O(NlgM) 次 位 的 检查 ， 相 对 而 言 ， 若 对 基本 
算法 应 用 MM 次 时 ， 其 开销 为 O(NM)。 

基于 trie 树 的 有 限 状 态 自 动机 。 当 刚才 所 述 的 查找 过 程 在 一 个 空 外 部 结 点 上 结束 时 ， 我 们 
可 以 用 和 Knuth-Morris-Pratt 算 法 完全 一 样 的 方法 把 事情 做 得 更 好 一 些 ， 而 不 是 回 到 trie 树 的 顶 
部 并 备份 文本 指针 。 在 空 结 点 上 的 终止 不 仅 告诉 了 我 们 所 要 查找 的 串 不 在 数据 库 中 ， 也 告诉 
了 我 们 在 此 不 匹配 之 前 的 文本 中 的 那些 字符 。 那 些 字符 恰好 表明 了 下 一 次 查找 时 我 们 所 要 检 
查 的 文本 字符 的 位 置 ， 就 像 KMP 算 法 一 样 ， 我 们 完全 可 以 避免 由 于 备份 所 引起 的 比较 操作 的 
浪费 。 事 实 上， 程序 7.2 可 以 用 在 这 种 应 用 问题 上 而 不 必 做 任何 修改 ; 我 们 只 需 建立 一 个 对 应 
于 一 组 串 的 FSA， 而 不 是 一 个 串 的 FSA。 例 如 ， 自 动机 
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对 应 于 申 集 合 000 011 1010。 图 7-8 是 该 FSA 的 一 个 图 形 表示 。 例 如 ， 当 此 自动 机 在 下 面 给 
出 的 样本 文本 段 上 运行 时 ， 它 按 指示 取得 状态 转换 。( 下 面 的 第 二 行 给 出 了 每 个 字符 在 进行 检 
查 时 FSA 所 在 的 状态 。) l 

11110010010010111010000011010011000001010111010001 

02222534534534568 
在 这 个 例子 中 ，FSA 在 状态 8 停止 ， 并 找到 了 一 个 模式 011。Aho 和 Corasick[1] 描 述 了 对 给 定 
的 一 组 模式 建立 一 个 自动 机 的 过 程 。 

以 上 这 些 算法 和 应 用 都 具有 代表 性 ， 它 们 展示 了 trie 树 数据 结构 在 计算 机 应 用 中 的 重要 价 
值 。trie 树 的 重要 性 不 只 是 它们 可 以 作为 明确 的 数据 结构 ， 它 们 也 能 隐 含 地 出 现在 基于 位 的 算 
法 中 ， 或 出 现在 要 进行 真正 的 “二 元 ”决策 的 算法 中 。 因 此 ， 描 述 随机 trie 树 性 质 的 解析 结果 
具有 非常 广泛 的 应 用 。 


U 
‘© 
© 





254 B7¥ 





图 7-8 F000, 01141101049) Aho-Corasick FSA 


习题 7.41 当 使 用 图 7-$ 中 的 中 间 那 个 trie 树 在 文本 串 10010100111110010101000 
101010100010010 中 查找 模式 1010101010 和 1010101011 中 的 一 个 模式 时 ， 所 要 检查 的 
位 是 多 少 个 比特 ? 

习题 7.42 ”给 定 一 组 模式 串 ， 描 述 一 个 方法 来 统计 其 中 的 一 个 模式 在 一 个 文本 串 中 出 现 
的 次 数 。 

习题 7.43 ”根据 文本 串 10010100111110010101000101010100010010 建 立 一 棵 关 
于 八 位 或 更 长 的 模式 的 后 缀 trie 树 。 

习题 7.44 给 出 对 应 于 所 有 四 位 串 的 后 组 trie 树 。 

习题 7.45 ”给 出 关于 串 集 合 01 100 1011010% Aho-Corasick FSA, 


7.8 trie 树 的 组 合 性 质 


作为 组 合 对 象 ，trie 树 只 是 在 近期 才 得 到 了 研究 ， 尤 其 是 与 排列 和 树 这 样 的 经 典 组 合 对 象 
相 比 而 言 更 是 如 此 。 正 如 我 们 将 要 看 到 的 ， 即 使 要 完全 理解 trie 树 的 最 基本 的 性 质 ， 也 需要 利 
用 我 们 在 本 书 中 所 考虑 的 整套 分 析 工具 。 

trie 树 的 某 些 性 质 自然 而 然 地 呈现 了 它们 有 待 于 分 析 的 特性 。trie 树 中 空 结 点 的 个 数 会 是 多 
少 ? 平均 外 部 路 径 长 度 是 多 少 ? 或 者 说 平均 高 度 是 多 少 ? 和 二 叉 查找 树 一 样 ， 对 这 些 基 本 性 
质 的 了 解 将 会 给 出 我 们 分 析 串 查找 以 及 应 用 树 的 其 他 算法 时 所 需 的 必要 信息 。 

一 个 需要 考虑 的 更 加 基本 的 相关 问题 是 ， 我 们 需要 对 用 于 分 析 的 计算 模型 做 出 根本 的 改 
变 : 对 二 叉 查找 树 而 言 ， 值 得 关注 的 只 是 关键 字 的 相关 顺序 ; 而 对 于 trie 树 而 言 ， 作 为 位 串 的 
关键 字 的 二 进 制 表示 就 必须 发 挥 作 用 了 。 什 么 样 的 trie 树 才 真 正 是 随机 的 ? 尽管 我 们 有 几 个 可 
行 的 模型 ， 但 很 自然 的 想法 是 ， 我 们 可 以 把 一 棵 随机 trie 树 看 成 是 由 N 个 随机 有 限 位 串 所 构成 
的 。 这 样 的 模型 对 许多 重要 的 trie 树 算法 都 是 合适 的 ， 如 数字 查找 算法 等 。 这 种 模型 和 通过 一 
个 随机 位 串 建立 起 来 的 后 缀 trie 树 是 不 一 样 的 ， 尽 管 它 确实 也 足以 用 来 近似 后 绥 trie 树 。 

因此 ， 我 们 将 在 假定 : 每 个 位 串 中 的 位 以 1/2 的 概率 独立 地 取 0 或 1 下 考虑 trie 树 性 质 的 
分 析 。 


定理 7.8 (trie 树 的 路 径 长 和 大 小 ) ”对 应 于 NN 个 随机 位 囊 的 trie 树 平均 外 部 路 径 长 为 
~NlgN。 内 部 结 点 的 平均 个 数 渐 近 于 (1/ln2+10)N。 


证 明 我们 从 一 个 递 推 关 系 来 开始 证 明 : 对 N>0，N 个 位 串 中 恰好 有 # 个 以 0 打头 的 概率 是 
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伯 务 利 概率 (7) /2" ， 所 以 、 如 果 我 们 定义 Cw 是 对 应 于 N 个 随机 位 串 的 trie 树 中 的 平均 外 部 
路 径 长 ， 则 我 们 必 有 
Cy =N 1 N 
EDINGER (N>1, Q =C, =0) 


这 恰好 是 我 们 在 4.9 节 定理 4.9 中 所 考查 过 的 关于 基数 交换 排序 时 用 于 描述 所 检查 的 位 数 的 递 推 
关系 。 当 时 ， 我 们 曾 证 明 
-Miicw=n3[1-(1- ) 
然后 我 们 利用 指数 逼近 导出 
Cr~ NSO- e™ ya NlgN 

一 个 更 准确 的 估计 展示 了 该 量 值 随 着 N 的 增加 具有 周期 性 的 波动 。 正 如 我 们 在 第 4 章 中 所 
见 到 的 ， 和 式 中 的 项 对 较 小 的 + 以 指数 速度 趋 近 于 1， 对 较 大 的 k 以 指数 速度 趋 近 于 0， 当 kX 接近 
于 lgN 时 有 一 个 过 渡 过 程 ( 见 图 4-5)。 因 此 、 我 们 把 和 式 分 成 两 部 分 : 


Cu/N ~ (1- one (-e"”) 
o< ffen] EN | 


=|IgN|- a + de") 
0 < j<flen | j> [en] 


=(lgN|- ye + (tee) 4 O(e") 


j<ligN] j> [en] 


-leN]- Se “+ a-e ene oe) 
Js 


fr 
现在 ， 就 像 我 们 在 第 2 章 中 所 做 过 的 事情 一 样 ( 见 图 23 和 2.4)， 将 lgN 的 小 数 部 分 分 离 出 来 ， 我 们 有 
lgNj=lgN-{lgN} 及 N/2U8N] = 2X LEM L oten 
这 就 导出 了 表达 式 
Cv/N~lgN-EN) 
其 中 
eM) = ig N+ Ne ae Sd eee) 


ds 379 


现在 ，s (显然 是 一 个 满足 s (2N) = e (N) 的 周期 函数 ， 因 为 它 只 在 项 {lg 和 N} 中 依赖 于 N。 
但 这 并 不 能 立即 排除 e (N) 是 常数 的 可 能 性 ， 不 过 我 们 可 以 很 容易 检查 s (和 N) 不 是 常数 : 
(Cy - NIgN/N 不 趋向 于 一 个 极限 ， 而 是 随 着 N 的 增加 进行 波动 。 图 7-9 给 出 了 对 N<256 时 此 函 


数 减 去 其 平均 值 以 后 的 图 形 ， 表 7-7 给 出 了 4<N < 16 时 (NER (ARERR 


EE). Age (N) 在 数值 上 非常 接近 于 1.332746; 且 其 波动 部 分 的 振幅 小 于 10…。 

这 个 结果 归功 于 Knuth[17]， 他 通过 Mellin 变 换 分 析 时 出 了 关于 s (和 N) 及 平均 值 的 显 式 表达 
式 。Guibas、Ramshaw、Sedgewick[16] 及 Flajolet、Gourdon.、 Dumas[7] 对 此 问题 及 其 相关 问 
题 也 都 做 过 详细 的 研究 (也 可 参见 [26] 和 [9])。 
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图 7-9 trie 树 路 径 长 中 的 周期 性 波动 
表 7-7 trie 树 路 径 长 中 的 周期 项 
N {lgN} Ecoe Ep- 7) -2(N) 
4 0.000 000 000 0.153 986 497 1.486 733 879 1.332 747 382 
5 0.321 928 095 0.088 868 348 1.743 543 002 1.332 746 559 
6 0.584 962 501 0.052 271 965 1.969 979 089 1.332 744 624 
了 0.807 354 922 0.031 110 097 2.171 210 673 1.332 745 654 
8 0.000 000 000 0.153 986 497 1.486 733 879 1.332 747 382 
9 0.169 925 001 0.116 631 646 1.619 304 291 1.332 747 643 
10 0.321 928 095 0.088 868 348 1.743 543 002 1.332 746 559 
11 0.459 431 619 0.068 031 335 1.860 208 218 1.332 745 265 
12 0.584 962 501 0.052 271 965 1.969 979 089 1.332 744 624 
13 0.700 439 718 0.040 279 907 2.073 464 469 1.332 744 844 
14 0.807 354 922 0.031 110 097 2.171 210 673 1.332 745 654 
15 0.906 890 596 0.024 071 136 2.263 708 354 1.332 746 622 
16 0.000 000 000 0.153 986 497 1.486 733 879 1.332 747 382 


y /ln2 + 1/2 = 1.332746177 


我 们 可 用 类 似 的 方法 来 分 析 N 个 位 串 的 trie 树 中 内 部 结 点 的 个 数 问题 ， 该 数值 可 用 下 面 的 
递归 来 描述 : 





Ayala Dhe AtA (N>1, A, =A, =0) 
2 k 


在 此 实例 中 ， 周 期 波动 出 现在 主 项 中 : 实际 上 
N ~ 
Ay ~ 75 (1+ €(N)) 


其 中 8 (N) 的 绝对 值 小 于 10-;。 此 分 析 的 细节 类 似 于 前 面 的 讨论 ， 我 们 把 它 留 作 一 道 习 题 。 © 
因此 ， 在 一 棵 trie 树 的 查找 过 程 中 ， 所 要 检查 的 平均 位 数 是 ~lgN， 这 是 一 个 最 佳 值 。 
Knuth 还 证 明了 此 结果 对 Patricia 和 数字 树 查找 也 成 立 。 我 们 还 能 得 到 准确 的 渐 近 值 以 及 所 涉及 
的 常数 及 波动 项 的 显 式 表达 式 。 详 尽 细 节 可 参考 上 面 提 到 的 参考 文献 。 正 如 我 们 在 证 明 所 提 
到 过 的 ， 此 结果 也 适用 于 第 1 章 中 所 讨论 的 Quicksort 的 变形 一 一 基数 交换 排序 一 一 的 分 析 中 。 


推论 对 N 个 随机 位 事 的 数组 排序 ， 基 数 交换 排序 要 进行 -MIgEN 次 位 的 比较 。 


| 证 明 见 上 面 的 讨论 。 我 们 假定 位 串 足 够 长 (比方 说 位 数 远 远大 于 lgN)， 以 至 于 我 们 可 以 
把 它们 看 成 是 “无 限 的 ”"。 为 了 与 图 1-3 做 出 比较 ， 图 7-10 给 出 了 该 排 序 的 开销 的 分 布 。 E 
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| 
Nig N — 1.333N 
图 7-10 trie 树 中 路 径 长 度 的 分 布 ，10<N< 50 
( 按 比例 绘制 并 平移 到 中 心 以 对 曲线 进行 分 离 ) 
习题 7.46 ”证明 4wWN 等 于 1l/ln2 加 上 一 个 波动 项 。 
习题 7.47 对 于 N<10 写 一 个 程序 计算 4w， 准 确 到 10"“， 并 考察 AWMN 的 波动 特性 。 


习题 7.48 ”在 关于 C(z) 的 函数 方程 两 端 同时 乘 以 e-*， 将 其 转换 成 关于 C(z) = e-:C(z) 的 更 简 ， 


单 的 方程 。 用 这 个 方程 求 出 C, = [zw]C(z)。 然 后 应 用 由 C(z) = esC(z) 所 隐 含 的 卷 积 来 证 明 


NY k1} 
Te 
习题 7.49 EREA: 上 题 中 所 给 出 的 和 式 等 价 于 定理 7.8 的 证 明 中 所 给 出 的 关于 Cu 的 表 
达 式 。 
分 布 式 领导 人 选举 。 正 如 前 面 所 指出 的 ， 随 机 trie 树 模型 是 非常 普遍 的 。 它 对 应 一 个 一 般 
的 概率 过 程 ， 其 中 “个 体 ”(trie 树 查找 中 的 记录 ) 是 通过 投掷 硬币 的 方式 递归 分 离 的 。 这 个 
过 程 可 作为 各 种 资源 分 配 策 略 的 基础 ， 尤 其 是 在 分 布 式 场合 下 更 是 如 此 。 作 为 一 个 例子 ， 我 
们 将 考虑 一 个 关于 在 分 享 一 个 分 布 式 通路 频道 的 N 个 个 体 中 选 出 一 个 领导 人 的 分 布 式 算法 。 
此 方法 是 按 轮 次 来 进行 的 ， 个 体 是 按 投掷 硬币 的 方式 被 选 上 或 被 选 掉 的 。 给 定 一 个 个 体 集合 : 
。 如 果 集 合 是 空 的 ， 则 报告 错误 ; 
。 如 果 集合 中 只 有 一 个 个 体 ， 则 宣布 该 个 体 为 领导 ; 
。 如 果 集 合 中 多 于 一 个 个 体 ， 则 对 集合 中 所 有 成 员 独 立地 投掷 0-1 硬 币 ， 并 对 集合 中 得 到 1 
的 个 体 递归 地 调用 此 过 程 。 
如 果 我 们 从 N 个 个 体 开 始 ， 那 么 在 算法 的 执行 过 程 中 ， 我 们 期 望 N 近 似 地 减少 到 N/2， 
。 因 此 ， 我 们 期 望 这 个 过 程 大 约 在 lgN 步 以 后 结束 ， 也 许 我 们 还 需要 更 为 准确 的 分 析 。 
此 外 ， 该 算法 也 可 能 失败 (如 果 每 个 人 都 投 出 0 时 ， 那么 所 有 的 人 都 将 补 选 拓 从 而 选 不 出 领 
导 )， 因 而 了 解 算法 成 功 的 概率 ， 也 是 值得 我 们 关注 的 。 


定理 7.9 (领导 选举 ) 从 N 个 候选 者 中 选 出 一 个 领导 ， 此 随机 化 算法 所 用 的 平均 轮 次 是 

lgN + O(1)， 其 成 功 的 概率 渐 近 于 1/(2ln2) + 10° = 0.72135, 

证 明 “通过 把 算法 的 一 次 执行 表示 成 一 棵 trie 树 ， 显 然 轮 次 的 平均 数 是 由 N 个 随机 位 串 所 
建立 的 trie 树 中 右 行 分 支 的 期 望 长 度 ， 因 此 它 满足 递归 
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1 N 
Rel D (R (N>1, R =R,=0) 


类 似 地 ， 成 功 的 概率 满足 递归 
N 
Poor D4)? (N>1, p=0 p=) 


这 些 递归 与 我 们 前 面 详细 考虑 过 的 路 径 长 的 递归 相当 类 似 。 我 们 把 对 它们 的 求解 留 作 习题 。 
与 前 面 一 样 ， 关 于 P 的 所 述 结 果 要 准确 到 一 个 均值 为 0(、 振 幅 小 于 10 的 波动 项 之 内 。 E 

如 果 这 个 方法 失败 ， 将 此 方法 重复 执行 就 可 以 得 到 一 个 成 功 概率 为 1 的 算法 。 平 均 而 言 ， 
这 个 算法 将 需要 大 约 21n2 = 1.3863 次 迭代 、 最 多 轮 次 为 ~2InN。 此 算法 是 Prodinger 算 法 的 一 个 
简化 形式 ，Prodinger 算 法 平均 在 lgN + 0(1) 轮 后 成 功 [22]。 

习题 7.50 求解 定理 7.9 的 证 明 中 给 出 的 关于 Rv 的 递归 ， 准 确 到 波动 项 。 

习题 7.51 求解 定理 7.9 的 中 给 出 的 关于 Pv 的 递归 ， 准 确 到 波动 项 。 

习题 7.52 分 析 重 复 轮 次 直到 成 功 的 领导 人 选举 算法 的 变 体形 式 。 


7.9 更 大 的 字母 表 


本 章 的 结果 是 对 由 大 小 为 M (M> 2) 的 字母 表 的 字符 所 构成 的 串 所 进行 的 推广 。 在 我 们 所 
用 过 的 组 合 技术 中 ， 没 有 哪个 技术 必须 要 依赖 串 是 二 进 制 的 。 在 实践 中 ， 假 定 字母 表 的 大 小 
M 是 一 个 不 大 的 常数 是 合理 的 : 像 25、2* 或 甚至 2 “这样 的 值 可 能 是 实践 中 所 和 希望 的 。 我 们 将 
不 对 关于 更 大 的 字母 表 的 结果 进行 详细 考查 ， 但 我 们 会 给 出 有 几 个 一 般 性 的 评论 。 

在 7.2 节 中 我 们 曾 注意 到 : 在 一 个 随机 的 M- 字 节 串 中 ，k 个 0 的 第 一 个 游程 在 位 置 MCM - 
DAM - 1) 处 结束 。 这 似乎 使 得 字母 表 的 大 小 变 成 了 一 个 重要 的 因素 : 例如 ， 我 们 期 望 在 一 个 
随机 位 串 的 前 几 千 个 位 内 就 能 找到 一 个 具有 十 个 0 的 串 ， 但 是 ， 在 一 个 由 8- 位 的 字 节 组 成 的 随 
机 串 中 查找 具有 十 个 相同 字符 的 一 个 串 ， 要 在 前 几 千 字 节 内 找到 将 是 极 不 可 能 的 事情 ， 因 为 
第 一 个 这 样 的 串 的 期 望 位 置 大 约 在 2" 字 节 处 。 然 而 ， 这 只 是 用 两 种 方法 来 看 待 分 析 结 果 而 已 ， 
因为 我 们 可 以 将 一 个 位 串 用 明显 的 方法 转换 成 一 个 字 节 串 〈 每 次 考虑 8 个 位 )。 也 就 是 说 ， 字 
母 表 的 大 小 并 不 像 看 起 来 的 那么 重要 ， 因 为 它 只 通过 它 的 对 数 起 到 干涉 作用 。 

从 实践 和 理论 的 观点 来 看 ， 通 常 不 用 考虑 字 节 串 ， 只 考虑 位 串 就 足够 了 ， 因 为 直接 编码 
可 以 把 任何 一 个 关于 字 节 串 的 有 效 算 法 转换 成 一 个 关于 位 串 的 有 效 算 法 ， 反 之 亦 然 。 

把 位 作为 组 来 考虑 的 一 个 主要 优点 是 ， 我 们 可 以 把 它们 以 下 标的 形式 运用 在 表格 中 ， 或 
把 它们 当成 整数 来 处 理 ， 这 实质 上 是 要 利用 计算 机 寻 址 或 算术 硬件 来 并 行 地 匹配 大 量 的 位 。 
它 可 对 某 些 应 用 带 来 速度 上 的 巨大 提高 。 

多 路 trie 树 。 一 个 M- 叉 trie 树 是 由 一 组 M- 字 节 串 所 构成 的 ， 平 均 而 言 ， 它 约 有 MInM 个 内 
部 结 点 ， 其 外 部 路 径 长 度 渐 近 于 NiogwN。 也 就 是 说 ， 使 用 大 小 为 M 的 字母 表 可 以 节省 InM 倍 的 
查找 时 间 。 但 这 要 付出 约 M/lnM 倍 存 贮 空间 的 代价 ， 因 为 每 个 内 部 结 点 都 必须 有 M 个 链 ， 当 M 
较 大 时 ， 大 部 分 链 都 是 空 的 。 

右 ~ 左 事 查 找 。 考 虑 在 一 个 (相对 长 的 ) 文本 中 查找 一 个 (相对 短 的 ) 模式 且 二 者 均 为 字 
节 串 时 的 问题 。 对 前 面 的 例子 进行 扩展 ， 我 们 对 文本 中 第 M 个 字符 与 模式 中 最 后 一 个 字符 进 
行 检查 。 如 果 匹 配 ， 我 们 再 对 第 (M - 1) 个 文本 字符 与 模式 中 倒数 第 二 个 字符 进行 检查 ， 依 
此 类 推 ， 直 到 发 生 一 个 不 匹配 或 证 实 已 经 全 部 匹配 为 止 。 实 现 这 个 过 程 的 一 种 方法 是 : 用 与 
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KMP 算 法 几乎 相同 的 方法 、 基 于 不 匹配 建立 一 个 “最 佳 移动 "。 但 在 这 个 例子 中 ， 一 个 更 简单 
的 方法 可 能 会 更 加 有 效 。 如 果 一 个 文本 字符 不 出 现在 模式 中 ， 那 么 这 个 字符 就 是 我 们 可 以 多 
跳 过 M 个 字符 的 依据 ， 因 为 在 这 样 的 字符 处 ， 位 于 模式 右 端 任何 位 置 上 的 每 个 字符 都 需要 去 
匹配 “当前 ”这 个 字符 ， 而 这 个 字符 却 不 在 模式 中 。 对 许多 相关 参数 的 合理 值 而 言 ， 这 种 事 
情 是 可 能 发 生 的 ， 因 此 ， 这 就 把 我 们 带 到 了 这 样 的 一 个 目标 面前 : 在 一 个 长 度 为 N 的 文本 串 中 
查找 一 个 长 度 为 M 的 模式 上 时， 只 检查 N/M 个 文本 字符 。 即 使 当 文 本 字符 确实 出 现在 模式 中 时 ， 
我 们 也 可 以 对 字母 表 中 的 每 一 个 字符 ,预先 计算 出 它 恰当 的 移动 (从 模式 的 右 端 到 该 字符 的 
距离 ) ， 以 便 安排 模式 文本 中 的 “下 一 个 可 能 的 ”号 号。Gonnet 和 Baeza- Yates[12] 讨 论 了 这 种 
方法 的 细节 ， 其 思想 起 源 于 Boyer 和 Moore。 

还 有 许多 事情 值得 我 们 考虑 。 模 式 是 应 该 进行 位 的 移动 还 是 字 节 移动 ? 一 个 字 节 应 该 多 
大 时 才 合 适 ? 一 些 右 向 左 和 左 向 右 的 混合 型 查找 是 可 行 的 吗 ? 另外 一 种 方法 是 使 用 trie 树 串 查 
找 在 所 有 第 MM 个 字 节 位 置 处 检查 所 有 可 能 的 前 级 和 所 有 可 能 的 后 级 。 许 多 类 似 的 问题 都 是 自 
然而 然 地 出 现 的 一 一 这 是 一 个 非常 活跃 的 研究 领域 ， 我 们 本 章 所 讨论 的 各 种 分 析 在 这 个 领域 
中 将 起 到 积极 的 作用 。 

习题 7.53 ”一 个 算法 要 在 一 个 文本 串 中 查找 M 个 0 的 游程 〈M 不 算 太 小 )， 对 于 上 = 1,2, 3 及 
更 大 的 值 ， 检 查 在 KM 处 结束 的 ! 个 位 ， 如 果 该 ! 位 全 为 0， 则 检查 该 ! 位 的 两 边 ， 以 确定 该 游程 的 
长 度 ， 平 均 而 言 ， 这 个 算法 要 检查 多 少 位 ?9 除了 不 假定 该 文本 串 中 某 个 地 方 藏 有 M 个 0 的 游程 
之 外 ， 假 定 该 文本 串 是 随机 的 。 

习题 7.54 改写 上 一 习题 所 给 出 的 算法 ， 在 一 个 随机 位 串 中 查找 最 长 的 0 串 。 

应 该 说 ， 位 串 是 关于 计算 机 科学 的 基本 组 合 对 象 ， 在 考虑 串 和 trie 树 的 组 合 问题 时 ， 我 们 
无 疑 已 经 接触 到 大 量 的 基本 范例 。 我 们 已 经 检查 过 的 某 些 结果 与 概率 论 中 的 经 典 结果 有 联系 ， 
但 许多 其 他 结果 既 与 计算 机 科学 的 基本 概念 有 联系 ， 也 与 重要 的 实践 问题 有 联系 。 

我 们 考查 了 大 量 基 本 的 串 - 查 找 算法 。 从 算法 设计 和 分 析 的 观点 看 ， 这 些 算 法 是 相当 有 意 
义 的 ， 不 过 它们 还 没有 像 排序 和 查找 算法 那样 得 到 广泛 的 研究 。 有 些 算法 ， 尤 其 是 trie 树 查找 
算法 ， 对 许多 更 一 般 的 情形 都 非常 适用 ， 串 -查找 算法 的 实际 应 用 也 是 数不胜数 的 。 

对 串 集 合 的 考查 导致 了 形式 语言 的 研究 和 下 面 的 有 用 结果 : 形式 语言 系统 的 基本 理论 性 
质 与 生成 函数 的 分 析 性 质 之 间 存 在 着 一 种 明确 的 关系 。 我 们 能 用 一 种 “自动 的 ”方式 分 析 一 
大 类 问题 ， 尤 其 是 在 现代 计算 机 代数 系统 的 辅助 之 下 。 

在 所 有 这 些 背 景 之 下 ，trie 树 是 极为 重要 的 一 种 组 合 结构 和 一 种 数据 结构 。 它 是 经 典 查 找 
问题 的 一 种 实用 的 数据 结构 ， 并 且 它 给 出 了 排序 过 程 的 一 个 模型 ; 它 是 固定 的 串 集合 的 一 种 
自然 表示 方法 ， 并 可 应 用 于 串 查找 问题 ; 作为 树 的 一 种 类 型 ， 它 与 基本 的 分 治 范 例 有 着 直接 
的 联系 ; 它 与 位 的 结合 使 它 把 自己 与 低层 表示 法 以 及 低层 过 程 直 接 联系 在 一 起 。 

最 后 ，trie 树 基本 性 质 的 分 析 提 出 了 一 个 无 法 完全 用 初等 方法 来 解决 的 重要 课题 。 详 细 的 
分 析 需 要 对 波动 函数 进行 描述 。Flajolet、Gourdon 和 Dumas[7] (还 可 见 [9]) 详细 讨论 了 处 理 
出 现在 此 类 问题 中 的 各 种 函数 的 高 级 数学 技巧 (主要 是 Mellin 变 换 )。 因 为 许多 算法 都 在 或 者 
是 隐 含 地 、 或 者 是 明确 地 处 理 二 进 制 串 ， 因 而 这 种 函数 出 现在 大 量 的 算法 之 中 。 


参考 文献 


1. A. V. AHO AND M. J. Corasick. “Efficient string matching: An aid to 
bibliographic search,” Communications of the ACM 18, 1975, 333- 
340. 





21. 


22. 


#7 ¥ 





. N. CHOMSKY AND M. P. SCHÜTZENBERGER. “The algebraic theory of 


context-free languages,” in Computer Programming and Formal Lan- 
guages, P. Braffort and D. Hirschberg, eds., North Holland, 1963, 
118-161. 


. L. Comter. Advanced Combinatorics, Reidel, Dordrecht, 1974. 
. H. DELANGE. “Sur la fonction sommatoire de la fonction somme des 


chiffres,” L'enseignement Mathématique XXI, 1975. 


. S. EILENBERG. Automata, Languages, and Machines, Volume A, Aca- 


demic Press, New York, 1974. 


. W. FELLER. An Introduction to Probability Theory and Its Applica- 


tions, John Wiley, New York, 1957. 


. P FLAJOLET, X. GoURDON, AND P Dumas. “Mellin transforms and 


asymptotics: harmonic sums,” Theoretical Computer Science 144, 1995, 
3-58. 


. P FLAJOLET, M. REGNIER, AND D. SoTTEAU. “Algebraic methods for 


trie statistics,” Annals of Discrete Math. 25, 1985, 145-188. 


. P FLAJOLET AND R. SEDGEWICK. Analytic Combinatorics, in prepara- 


tion. 


. P FLAJOLET AND R. SEDGEWICK. “Digital search trees revisited,” SIAM 


Journal on Computing 15, 1986, 748-767. 


. K. O. Gennes, S. R. CzAPOR, AND G. LABAHN. Algorithms for Com- 


puter Algebra, Kluwer Academic Publishers, Boston, 1992. 


. G. H. Gonnet AND R. BAEZA-YATES. Handbook of Algorithms and 


Data Structures, 2nd edition, Addison-Wesley, Reading, MA, 1991. 


. L GouLDEN AND D. Jackson. Combinatorial Enumeration, John Wiley, 


New York, 1983. 


_ L. GUIBAS AND A. Optyzxo. “Periods in strings,” Journal of Combi- 


natorial Theory, Series A 30, 1981. 


. L. Gumas AND A. Optyzko. “String overlaps, pattern matching, and 


nontransitive games,” Journal of Combinatorial Theory, Series ADB, 
1981, 19-42. 


. L. Guras, L. RAMSHAW, AND R. SEDGEWICK. Unpublished work, 1979. 
. D. E. Knuth. The Art of Computer Programming. Volume 3: Sorting 


and Searching, Addison-Wesley, Reading, MA, 1973. 


. D. E. Knutn. “The average time for carry propagation,” Indagationes 


Mathematicae 40, 1978, 238-242. 
D. E. Knuta, J. H. Morris, AND V. R. Pratt. “Fast pattern matching 
in strings,” SIAM Journal on Computing, 1977, 323-350. 


. M. LOTHAIRE. Combinatorics on Words, Addison-Wesley, Reading, 


MA, 1983. 

V. Pratt. “Counting permutations with double-ended queues, par- 
allel stacks and parallel queues,” in Proceedings 5th Annual ACM 
Symposium on Theory of Computing, 1973, 268-277. 

H. Propincer. “How to select a loser,” Discrete Mathematics 120, 
1993, 149-159. 





$ 5 trie #t 


23. 


24. 


25. 
26. 


A. SALOMAA AND M. SOITTOLA. Automata-Theoretic Aspects of Formal 
Power Series, Springer-Verlag, Berlin, 1978. 

R. SEDGEWICK. Algorithms, 2nd edition, Addison-Wesley, Reading, 
MA, 1988. 

L. TRABB-PARDO. Ph.D. thesis, Stanford University, 1977. 

J. S. Virrer AND P FLAJOLET, “Analysis of algorithms and data struc- 
tures,” in Handbook of Theoretical Computer Science A: Algorithms 
and Complexity, J. van Leeuwen, ed., Elsevier, Amsterdam, 1990, 
431-524. 


261 


下 





第 8 章 字 与 映射 


固定 的 字母 表 中 的 字符 串 或 字 ， 除 了 在 上 一 章 所 考虑 过 的 算法 类 型 中 的 重要 作用 之 外 ， 
它们 在 大 量 的 应 用 中 也 是 非常 重要 的 。 与 第 7 章 所 研究 的 组 合 对 象 一 样 ， 本 章 我 们 将 考虑 相同 
的 一 组 组 合 对 象 〈 当 时 我 们 称 它 们 为 “ 字 节 串 ”) ， 但 我 们 将 从 一 种 不 同 的 观点 去 研究 它们 。 

一 个 字 可 以 被 看 作 是 把 取 自 区 间 1 到 的 一 个 整数 ; (字符 位 置 ) 映射 到 区 间 1 到 M 的 另 一 
个 整数 i (字符 的 值 ， 取 自 于 M 个 字符 的 字母 表 ) 的 上 映射。 在 上 一 章 中 ， 我 们 主要 考虑 了 “局 
部 ”和 性质 ， 包 括 与 相继 下 标 有 关 的 值 之 间 的 关系 (如 相关 性 等 ) ; 本 章 ， 我 们 将 考虑 “全 局 ” 
性 质 ， 包 括 全 局 范围 内 值 的 出 现 频率 以 及 更 加 复杂 的 结构 性 质 。 在 第 7 章 中 ， 我 们 一 般 认 为 字 
母 表 的 大 小 M 是 一 个 较 小 的 常数 ， 且 串 的 大 小 N 是 较 大 的 数 (甚至 是 无 限 大 的 ) ; 在 本 章 中 ， 
我 们 将 考虑 相应 于 这 些 参 数 的 值 的 其 他 各 种 可 能 性 。 

作为 基本 组 合 对 象 ， 字 经 常 出 现在 算法 分 析 中 。 其 中 特别 值得 关注 的 算法 是 散 列 算 
法 一 一 一 个 重要 的 且 被 广泛 用 于 信息 检索 的 算法 系列 。 我 们 将 利用 第 3 章 中 基本 生成 函数 
的 计数 技巧 和 第 4 章 中 的 渐 近 结果 来 分 析 各 种 散 列 的 变形 。 散 列 算法 的 使 用 率 相当 高 ， 它 
们 也 有 一 个 较 长 的 历史 。 在 这 个 历史 中 ， 算 法 分 析 扮 演 了 中 心 角 色 。 反 过 来 准确 预测 
这 类 重要 的 实用 算法 性 能 的 能 力 ， 一 直 都 在 刺激 着 算法 分 析 技 术 的 发 展 。 事 实 上 ，Knuth 
曾 说 过 ， 散 列 算法 分 析 对 他 早期 的 系列 著作 的 构架 有 着 “强大 的 影响 ”op022。 

人 们 一 直 都 在 频繁 地 研究 着 字 的 基本 组 合 性 质 ， 主 要 是 因为 这 些 性 质 可 以 作为 独立 
Bernoulli 试 验 序 列 的 模型 。 这 种 分 析 包 括 二 项 分 布 的 性 质 ， 其 中 的 许多 性 质 我 们 在 第 3 和 第 4 
章 中 都 详细 地 考查 过 。 我 们 将 要 考虑 的 一 些 问题 叫做 占有 问题 ， 因 为 它们 能 用 N 个 球 随机 分 布 
在 M 个 倪 中 的 模型 来 刻 划 ， 侈 中 球 的 “占有 分 布 ” 是 我 们 将 要 研究 的 问题 。 这 种 经 典 问题 中 
的 许多 问题 都 是 初等 的 ， 然 而 ， 简 单 算法 往往 能 够 导出 分 析 起 来 相当 困难 的 算法 的 变形 。 

如 果 字 母 表 的 大 小 M 较 小 ， 那 么 二 项 分 布 的 正 态 逼近 对 占有 问题 的 研究 是 比较 合适 的 ; 
如 果 M 随 着 N 增 大 ， 那 么 我 们 可 以 使 用 匆 松 和 逼近。 在 散 列 算法 分 析 以 及 算法 分 析 的 其 他 应 用 中 ， 
这 两 种 情况 都 将 出 现 。 

最 后 ， 我 们 引入 映射 (Map) 的 概念 : 一 个 国 数 映射 把 一 个 有 限 域 映射 到 有 限 域 自身 。 
这 是 在 算法 分 析 中 经 常 出 现 的 另外 一 个 重要 的 组 合 对 象 。 映 射 与 字 之 间 的 关系 是 这 样 一 种 
RA: 我 们 可 以 把 映射 看 成 是 一 个 N- 字 母 字 母 表 中 的 N- 字 母 字 ,但 事实 上 映射 与 树 、 森 林 
以 及 排列 之 间 也 有 联系 ; 对 它们 性 质 的 分 析 揭 示 了 一 个 有 趣 的 组 合 结构 ， 这 个 结构 是 对 我 
们 所 研究 过 的 几 个 结构 的 一 般 化 推广 。 符号 法 在 帮助 我 们 研究 映射 的 基本 性 质 方面 是 一 个 
有 效 的 工具 。 最 后 我 们 将 以 对 整数 进行 因子 分 解 的 一 个 算法 作为 随机 映射 原理 的 应 用 来 结 
REBAR. : 


8.1 使 用 分 离 链接 的 散 列 


程序 8.1 给 出 了 一 个 关于 信息 检索 的 标准 算法 ， 该 算法 通过 N 个 关键 字 的 一 个 表 把 查找 时 
间 减 少 到 原来 的 1/M。 通 过 令 M 足 够 大 ， 该 算法 通常 能 够 胜 过 我 们 在 5.5 节 和 7.7 节 中 所 考查 过 
的 基于 树 和 trie 树 的 查找 算法 。 





利用 一 个 所 谓 的 散 列 函数 ， 我 们 可 将 每 个 关键 字 转 换 成 1 到 M 之 间 的 一 个 整数 ， 并 假定 对 
任何 一 个 关键 字 ， 每 一 个 整数 值 都 等 可 能 地 通过 散 列 函数 来 产生 。 当 两 个 关键 字 散 列 到 相同 
的 值 时 〈 这 种 情况 叫做 冲突 ) ， 我 们 就 把 它们 存 人 单独 的 数据 结构 中 。 为 得 知 一 个 给 定 的 关键 
字 是 否 在 表 中 ， 我 们 用 散 列 函数 按 相同 的 散 列 值 在 关键 字 中 进行 二 次 搜索 。 也 许 关 于 二 次 搜 
索 的 最 简单 的 数据 结构 一 一 我 们 在 程序 .1 中 所 使 用 的 一 一 就 是 一 个 无 序 的 链表 ， 这 是 一 种 非 
常 容易 建立 和 搜索 的 数据 结构 。 该 算法 的 实现 使 用 了 一 个 标记 结 点 z, 其 初 值 为 所 要 查找 的 值 。 
一 次 不 成 功 的 查找 就 是 找到 z 的 查找 。 

散 列 算法 的 性 能 取决 于 散 列 函 数 的 有 效 性 ， 散 列 函数 把 任意 的 关键 字 等 可 能 地 转换 成 1 到 
M 之 间 的 值 。 做 这 件 事 的 一 个 典型 的 方法 是 : 选用 一 个 质数 M， 然 后 用 一 种 自然 的 方法 将 关键 
字 转 换 成 大 数 ， 再 用 转换 的 数 除 以 M 取 余数 作为 散 列 值 。 人 们 还 设计 出 了 一 些 更 加 复杂 的 方法 。 
散 列 算法 在 一 大 类 应 用 中 得 到 了 广泛 的 使 用 ， 经 验证 明 ， 如 果 对 散 列 过 程 加 以 注意 ， 则 不 难保 
证 散 列 函 数 将 关键 字 转 换 成 看 起 来 是 随机 的 散 列 值 。 这 样 ， 算 法 分 析 对 于 性 能 的 预测 就 特别 有 
效 ， 因 为 一 个 直接 的 随机 性 假设 总 被 认为 是 合理 的 ， 且 这 种 假设 已 经 深入 算法 之 中 。 

散 列 算法 的 性 能 也 取决 于 二 次 搜索 时 所 使 用 的 数据 结构 。 例 如 ， 考 虑 使 用 一 个 “有 序 的 
链表 "， 并 用 它 按 递增 次 序 来 存放 元 素 。 或 者 ， 邯 虑 使 用 一 个 二 叉 查找 树 来 存放 具有 相同 散 列 
值 的 关键 字 。 当 然 ， 算 法 分 析 能 够 帮助 我 们 在 这 些 变化 中 进行 选择 。 

如 果 N 相 对 M 而 言 较 大 、 且 散 列 函数 产生 的 值 又 是 随机 的 ， 那 么 我 们 可 以 期 望 每 个 链表 中 
约 有 N/M 个 元 素 ， 因 而 搜索 时 间 可 以 减少 到 原来 的 WM。 尽管 我 们 不 能 使 MM 任意 的 大 ， 因 为 增 
大 M 意 味 着 要 使 用 额外 的 空间 来 维护 二 级 数据 结构 ， 但 我 们 也 许 能 使 M = O(N)， 在 这 种 情况 
下 的 搜索 时 间 是 常数 。 人 们 已 经 提出 了 能 够 达到 这 一 标准 的 许多 散 列 的 变 体 ， 见 程序 8.1。 


程序 8.1 分 离 链 接 散 列 法 





procedure insertlv: integer); 
var x: link; 


begin 
new(x); x*.next = table[{hash(v)]; 
table(hash(v)}] = x; 
end; 
function search(v: integer): link; 


var t: link; 
begin 
t := table[hash(v)]; z*.key = v; 


while t*.next*.key <> v do t := t *.next; 
if t = z then t = NIL; 
search := t; 


end; 





在 散 列 算法 分 析 中 ， 我 们 所 关心 的 事情 不 仅 是 确定 如 何 对 各 种 散 列 算法 进行 比较 ， 也 要 
确定 如 何 将 散 列 算法 与 其 他 有 关 查 找 问 题 的 算法 进行 比较 ,以 及 如 何 最 好 地 设置 参数 (如 散 
列表 的 长 度 )。 为 把 注意 力 集中 在 数学 运算 上 ， 我 们 将 采用 衡量 散 列 算法 性 能 的 习惯 方法 : 对 
成 功 与 不 成 功 的 查找 ， 统 计 所 用 的 探测 次 数 ， 或 算出 关键 字 与 数据 结构 中 元 素 的 比较 次 数 。 
和 以 往 一 样 ， 更 详细 的 分 析 包括 : 计算 散 列国 数 时 的 开销 、 访 问 和 比较 关键 字 时 的 开销 等 等 ， 
这 些 分 析 都 需要 对 算法 的 相关 性 能 做 出 决定 性 的 说 明 。 比 如 ， 尽 管 散 列 可 能 只 包含 常数 次 探 
测 ， 但 如 果 关 键 字 很 长 ， 它 也 可 能 要 比 基 于 (比方 说 ) tire 树 的 搜索 要 慢 ， 因 为 计算 散 列国 数 
时 要 涉及 检查 整个 关键 字 ， 而 基于 tire 树 的 方法 可 能 在 检查 比较 少 的 位 后 就 能 确定 出 关键 字 。 

长 度 为 M 的 表 中 的 N 个 散 列 值 的 序列 只 不 过 是 由 大 小 为 M 的 字母 表 中 的 字母 所 组 成 的 长 度 
为 N 的 一 个 字 。 因 此 ， 散 列 分 析 直 接 对 应 于 字 的 组 合 性 质 的 分 析 。 接 下 来 ， 我 们 将 考虑 字 的 基 
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本 组 合 性 质 ， 包 括 分 离 链 接 法 的 散 列 分 析 ， 然 后 ， 我 们 再 考查 另外 几 个 散 列 算法 。 
8.2 字 的 基本 性 质 
定义 长 度 为 N 的 M- 字 是 一 个 水 数 /， 它 把 整数 从 区 间 [1... 和 映射 到 区 间 [1...M]。 
与 排列 和 树 一 样 ， 我 们 通过 写 出 字 的 函数 表 来 说 明 它 : 


Ptr 1 2 3 4 5 6 7 8 9 


ae 


字 1 8 2 8 4 5 9 0 4 

我 们 不 用 下 标 ， 而 是 通过 书写 (1)f(2)…f 了 (NV) 来 说 明 函 数 ， 这 种 方法 使 得 如 下 结果 更 为 明显 : 
一 个 长 度 为 N 的 M- 字 等 价 于 一 个 长 度 为 N 的 字 节 串 《 字 节 大 小 为 M)。 当 研究 字 的 时 候 ， 我 们 
通常 把 注意 力 集中 在 字 中 值 的 集合 上 面 (例如 ， 有 多 少 个 1? )。 当 我 们 在 第 7 章 研 究 字 节目 的 
时 候 ， 我 们 曾 把 注意 力 集中 在 字 节 串 中 整数 序列 的 性 质 上 《有 多 少 个 连续 的 1? )。 416 

TEP , 1 HEE A Re ANR- RR RE. BUTE PERL 
分 布 在 M 个 谷中 ， 则 我 们 要 寻 问 的 问题 是 关于 分 布 的 结果 。 这 与 字 是 直接 对 应 的 : N 个 球 对 应 
于 一 个 字 中 的 N 个 字母 ，M 个 倪 对 应 于 一 个 字母 表 中 MM 个 不 同 的 字母 ， 所 以 我 们 要 指明 每 个 球 
到 底 落 入 哪个 侈 中 。“ 字 ”和 “ 球 - 侈 ”这 两 个 术语 可 以 交换 使 用 ， 并 且 我 们 将 增加 一 个 术语 
“ 散 列表 ” ， 即 ， 我 们 刚才 所 描述 过 的 基本 数据 结构 。 图 8-1 给 出 了 一 个 典型 的 球 数 相对 较 多 、 
贫 数 相对 较 少 的 球 - 丛 分 布 。 





图 8-1 将 1024 个 球 放 入 26 个 侈 中 的 随机 分 布 
M 和 N 的 相对 增长 率 问题 是 分 析 中 的 中 心 问 题 ， 实 践 中 还 会 出 现 许多 不 同 的 情形 。 对 于 文 
本 串 或 其 他 类 型 的 “ 字 ” 来 说 ， 我 们 通常 把 MW 看 成 是 固定 的 ， 把 N 看 成 是 我 们 所 关心 的 某 种 变 
量 。 我 们 从 一 个 国定 的 字母 表 的 字母 中 产生 不 同 长 度 的 字 ， 或 者 我 们 把 不 同 个 数 的 球 扔 入 固 “ 世 了 
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定 个 数 的 丛 中 。 对 于 其 他 应 用 ， 尤 其 是 散 列 算法 ， 我 们 则 认为 WM 是 随 N 的 增 大 而 增 大 的 ， 一 般 
来 说 M = aN， 其 中 a 在 0 和 1 之 闻 。 图 8-2 给 出 了 a = 1 时 的 8 个 例子 : MRSEBATA, KEH 
只 有 一 个 球 ， 只 有 很 少 的 倪 中 有 多 个 球 。 正 如 我 们 将 要 看 到 的 ， 我 们 的 分 析 将 导出 图 8-1 和 图 
8-2 中 所 阐明 的 “占有 分 布 ” 的 准确 特征 。 我 们 目前 所 讨论 的 这 个 问题 的 分 布 当然 是 二 项 分 布 ， 
且 我 们 所 考查 的 结果 也 是 经 典 的 结果 (几乎 有 两 个 世纪 ) ; 我 们 在 第 4 章 已 经 较 详细 地 讨论 过 


它们 。 
Beea jell bell hell ISL EUU elle 
lela altel UU lelelel ll 
ol el lislel|llllelleellel| 8L lille ULIS]! 
all oll lels lellei lel ULIB els (Esl 
JBoss Uells] U lls 
Lelellel ale lellel els U R BUUR sls 
Jaleela U UU A e B el 
olla ll elelee ele UUU LE 


图 8-2 26 个 球 在 26 个 侈 中 的 8 个 随机 分 布 
表 8-1 给 出 了 长 度 为 4 的 所 有 的 3- 字 (或 把 4 个 球 分 布 到 3 个 侈 中 的 所 有 方式 )， 以 及 表示 用 
过 0、1、2、3 和 4 次 的 字母 数 的 占有 总 数 〔 或 含有 0、1、2、3 和 4 个 球 的 倪 数 )。 该 表 也 包含 了 
我 们 所 要 考查 的 另外 几 个 类 型 的 统计 量 。 
表 8-1 占有 分 布 及 长 度 为 4 的 3- 宇 的 性 质 ， 或 4 个 球 在 3 个 倪 中 的 配置， 
或 长 度 为 4 的 散 列 序列 ( 表 长 为 3) 





区 一 




















字 0 1 2 3 4 字 0 1 2 3 4 字 0 1 2 3 4 
lll 2 0 0 0 1 2111 1 1 0 1 0 3111 1 1 0 1 0 
1112 1 1 0 1: 0 2112 1 0 2 0 0 3112 0 2 1 0 0 
1113 1 1 0 1 0 2113 0 2 1 0 0 3113 1 0 2 0 0 
121 1:1 0 1 0 2121 1 0 2 0 0 3121 0 2 1 0 0 
1122 1 0 2.0 0 2122 1 1 0 1 0 3122 0 2 1 0 0 
1123 0 2 i 0 0 2123 0 2 1 0 0 3123 0 2 1 0 0 
1131 1 1 0 1 0 2131 0 2 1 0 0 3131 l 0 2 0 0 
1132 0 2 1 0 0 2132 0 2 1 0 0 3132 0 2 1 0 0 
1133 1 0 2 0 0 2133 0 2 1 0 0 3133 1 1 0 1 0 
1211 1 i 0 1 0 2211 1 0 2 0 0 3211 0 2 1 0 0 








( 续 ) 
£ 0 1 2 3 4 字 0 1 2 3 4 字 0 1 2 3 4 
1212 1 0 2 0 0 2212 1 1 0 1 0 3212 0 2 1 0 0 
121302 1 0 0 2213 0 2 1 0 0 3213 0 2 1 0 0 
1221 1 0 2 0 0 2221 1 1 0 1 0 3221 0 2 1 0 0 
1222 1 1 0 1 0 2222 2 0 0 0 1 3222 1 1 0 1 0 
1223 0 2 1 0 0 2223 1 1 O 1 0 3223 1 0 2 0 0 
1231 0 2 1 0 0 2231 0 2 1 0 0 3231 0 2 1 0 0 
1232 0 2 1 0 0 2232 1 1 0 1° 0 3232 1 0 2 0 0 
12333 0 2 1 0 0 2233 1 0 2 0 0 3233 1 1 0 1 0 
1311 1 1 0 1 0 2311 0 2 1 0 0 3311 1 0 2 0 0 
1312 0 2 1 0 0 2312 0 2 1 0 0 3312 0 2 1 0 0 
1313 1 0 2 0 0 2313 0 2 1 0 0 3313 1 1 0 1 0 
1321 0 2 1 0 0 2321 0 2 1 0 0 3321 0 2 1 0 0 
1322 0 2 1 0 0 2322 1 1 0 1 0 3322 1 0 2 0 0 
13223 0 2 1 0 0 2323 1 0 2 0 0 3323 1 1 0 1 0 
1331 1 0 2 0 0 2331 0 2 1 0 0 3331 1 1 0 1 0 
1332 0 2 1 0 0 2332 1 0 2 0 0 3332 1 1 0 1 0 
1333 1 1 0 1 0 2333 1 1 0 1 0 3333 2 0 0 0 1 
. 总 共 48 96 72 24 3 
[JB 2 2 > alll 

| Pr{ 没 有 空 贫 } 36/81 = 0.444 

Pri Ab PIE} (18+36)/81 = 0.667 

Pri h Ah F 4h} (24 + 18 + 36)/81 = 0.963 

BBP Ly By (1.42 + 2.3)/81 = 0.593 

平均 最 大 占有 -(2.54+3.24+4.3J1/81 = 2.370 

平均 占有 (1.96+2.72+3.24+4.3)/3.81 = 1.333 

平均 最 小 占有 (1.36)/81 = 0.444 








一 般 而 言 ， 当 N 个 球 随机 地 分 布 在 M 个 侈 中 时 ， 我 们 将 关注 下 列 一 类 同 题 : 

* 没 有 倪 是 空 全 的 概率 是 多 少 ? 

。 没 有 侈 中 的 球 数 多 于 1 的 概率 是 多 少 ? 

* 有 多 少 个 侈 是 空 的 ? 

。 含 有 球 数 最 多 的 盆 中 的 球 是 多 少 个 ? 

* 含有 球 数 最 少 的 竹中 的 球 是 多 少 个 ? 

这 些 问题 将 立即 关切 到 散 列 算法 以 及 其 他 算法 的 实际 实现 问题 ， 我们 想 知道 ， 当 使 用 带 
有 分 离 链 的 散 列 时 ， 我 们 所 期 望 的 链表 长 度 是 多 少 ， 我 们 期 望 有 多 少 个 空 链表 ， 等 等 。 其 中 
的 一 些 问题 是 计数 问题 ， 它 们 类 似 于 第 6 章 中 带 有 圈 长 约束 的 排列 的 计数 问题 ， 其 他 问题 则 需 
要 我 们 更 详细 地 分 析 字 的 性 质 。 这 些 问 题 及 其 相关 问题 都 依赖 于 球 在 盆 中 的 占有 分 市， 我 们 
下 面 将 要 对 此 进行 详细 的 研究 。 

表 8-2 对 3 个 从 、 球 数 的 变化 范围 为 1 到 10 给 出 了 上 述 几 个 问题 中 各 个 量 的 值 ， 它 们 是 利用 
下 一 节 给 出 的 结果 计算 出 来 的 。 其 中 第 四 列 对 应 于 表 8-1， 它 表明 这 些 值 是 如 何 计算 出 来 的 。 
随 着 球 数 的 增加 ， 我 们 将 得 到 一 种 类 似 于 图 8-1 所 描绘 的 情形 ， 即 ， 球 大 约 均匀 地 分 布 在 各 个 
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表 8-2 3 个 倪 中 球 的 占有 参数 


球 1 2 3 4 5 6 7 8 9 10 





”概率 
占有 小 于 2 的 答 1 0667 0222 0 0 0 0 0 0 0 
占有 小 于 3 的 贫 1 0.889 0667 0370 0.123 0 0 0 0 
占有 小 于 4 的 从 1 1 1 0.963 0.864 0.700 0480 0.256 0085 0 
EERTE 0 0 0.222 0444 0.617 0.741 0.826 0.883 0.922 0.948 
KAKFINE 0 0 0 0 0 0.123 0288 0448 0.585 0.693 
占有 大 于 2 的 盆 0 0 0 0 0 0 0 0 0.085 0213 

平均 

BER 2 133 0.889 0593 0.395 0.263 0.176 0.117 0.0780 0.0520 
最 大 占有 1 133 189 237 2.78 3.23 3.68 4.08 4.50 4.93 
最 小 占有 0 0 0.222 0444 0.617 0.864 1.11 1.33 1.59 1.85 





M 和 N 的 相应 值 对 上 面 提出 的 各 种 问题 的 答案 起 着 多 大 的 支配 作用 是 值得 关注 的 。 如 果 球 
比 侈 数 多 得 多 (N>>M)， 那 么 显然 空 倪 数 将 非常 少 。 事 实 上 ， 我 们 期 望 每 个 倪 中 有 N/M 个 球 。 
这 就 是 图 8-1 的 情形 。 如 果 球 比 丛 数 少 得 多 (N<<M)， 那 么 大 多 数 从 都 将 是 空 的。 一些 最 有 趣 也 
最 重要 的 结果 描述 了 当 N 和 MM 相差 一 个 常数 因子 时 的 情形 。 正如 图 8-2 所 表明 的 , 即使 当 M = NET, 
爸 的 占有 也 相当 低 。 

表 8-3 给 出 了 关于 表 8-2 中 对 应 的 值 ， 不 过 是 对 较 大 的 值 M = 8 时 的 对 应 值 ， 和 表 8-2 一 样 ， 
N 的 变化 范围 是 1 到 10。 当 球 数 较 少 时 ， 我 们 有 类 似 于 图 8-2 所 描绘 的 情形 ， 即 : 有 许多 空 僵 ， 
且 总 体 上 说 每 个 盆 中 有 较 少 的 球 。 此 外 ， 根 据 下 一 节 的 分 析 结 果 ， 我 们 也 能 计算 出 准确 的 值 。 


表 8-3 ”8 个 先 中 球 的 占有 参数 





球 1 2 3 4 5 6 7 8 9 10 

概率 

占有 小 于 2 的 侈 1 0.875 0.656 0.410 0.205 0.077 0.019 0.002 0 0 

bap Phe 1 0.984 0.943 0.872 0.769 0.642 0.501 0.361 0.237 

占有 小 于 4 的 从 1 1 1 0.998 0.991 0.976 0.950 0.910 0.855 0.784 

EAK TOWNE 0 0 0 0 0 0 0 0.002 0011 0.028 

点 有 大 于 ;的 从 0 0 0 0 0 0 0 0.000 0.000 0.000 
平均 ， 

Ew 7 6.13 5.36 4.69 4.10 3.59 3.14 2.75 2.41 2.10 

最 大 占有 1 1.13 1.36 1.65 1.93 2.18 2.39 2.60 2.81 3.02 

最 小 占有 0 0 0 0 0 0 0 0.002 0.011 0.028 


与 排列 一 样 ， 我 们 可 以 在 字 之 间 建 立 组 合 对 应 关系 ， 用 来 推导 产生 有 关 分 析 结 果 的 CGF 
之 间 的 函数 关系 。 许 多 这 样 的 对 应 都 有 潜在 的 用 途 ， 从 中 选 出 一 个 用 于 特定 的 应 用 是 分 析 中 
的 一 门 艺术 。 字 比 排列 有 更 多 的 可 能 性 ， 因 为 字 有 两 个 参数 : 关于 长 度 为 N 的 M- 字 之 间 的 对 
应 就 好 比 是 具有 较 小 的 N 值 和 M 值 的 字 。 

习题 8.1 像 表 8-1 一 样 ， 给 出 一 个 关于 3 个 球 在 4 个 盆 中 的 表 。 

习题 8.2 像 表 8-1 与 表 8-3 一 样 ， 给 出 一 个 关于 2 个 盆 的 表 。 
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习题 8.3 给 出 关于 N 和 M 的 一 个 充分 必要 条 件 ， 使 平均 空 盆 数 等 于 平均 最 小 的 盆 占 有 。 

“第 一 ”对 应 或 “最 后 ”对 应 。 给 定 一 个 长 度 为 N 的 M- 字 ， 考 虑 通过 简单 地 去 掉 第 一 个 元 
素 后 而 形成 的 那个 字 ， 它 的 长 度 为 N - 1。 它 恰好 对 应 于 M 个 长 度 为 N 的 字 ， 每 个 字 的 第 一 个 
元 素 具有 每 种 可 能 的 值 。 或 进一步 说 ， 给 定 任何 一 个 长 度 为 N-1 的 M- 字 ， 我 们 都 能 通过 对 每 
个 1 到 M 的 上 ， 在 其 第 一 个 位 置 前 插入 K， 从 而 简单 地 确定 出 M 个 不 同 的 M- 字 。 例 如 ， 

12133 2213 3 3213 3 

都 与 2 1 3 3 对 应 。 这 就 定义 了 “第 一 ”对 应 ; 显然 我 们 可 以 对 任何 其 他 元 素 做 同样 的 事 
情 ， 而 不 仅仅 是 第 一 个 元 素 。 这 个 对 应 说 明 ， 长 度 为 N 的 M- 字 的 个 数 是 长 度 为 N- 1 的 M- 字 个 
数 的 M 倍 ， 重 申 一 遍 这 个 明显 的 事实 就 是 : 总 数 为 M"。 

“最 大 ”对 应 。 给 定 一 个 长 度 为 N 的 M- 字 ， 考 虑 通过 简单 地 去 掉 所 有 的 M 的 出 现 所 形成 的 
(M-1)- 字 。 如 果 存 在 k 个 这 样 的 出 现 (可 以 从 0 变化 到 N)， 那 么 这 个 (M-1)- 字 的 长 度 就 是 


N 
N-k， 它 恰好 对 应 于 长 度 为 N 的 ( | 个 不 同 的 字 ， 其 中 的 每 一 个 字 痢 对 应 于 把 个 元 素 加 入 到 这 
个 (M-1)- 字 中 去 的 所 有 可 能 方式 中 一 种 。 例 如 ， 


3321 3231 32 1 3 2331 23 13 213 3 


都 对 应 2 1。 这 个 对 应 导致 下 面 的 递 推 关系 


MN = 之 [Jaro 
这 是 对 二 项 式 定 理 的 重 述 。 


8.3 生日 悖 论 与 赠 券 收藏 家 问题 


我 们 知道 球 在 盆 中 的 分 布 是 二 项 分 布 ， 我 们 将 在 本 章 稍 后 详细 讨论 这 个 分 布 的 性 质 。 在 
这 之 前 ， 我 们 先 考 虚 关 于 球 - 爹 配置 的 两 个 典型 问题 ， 这 两 个 问题 都 要 涉及 侈 中 放 入 球 时 的 动 
态 过 程 。 当 个 球 一 个 接 一 个 地 随机 分 布 到 M 个 倪 中 时 ， 我 们 想 知 道 ， 平 均 而 言 ， 在 

。 第 一 次 有 一 个 球 落 入 一 个 非 空 的 筠 中 ; 

。 第 一 次 不 存在 空 倪 ; 
之 前 ， 有 多 少 个 球 已 经 藻 入 了 侈 里 。 这 两 个 问题 分 别 叫 敌 生 日 问题 和 赠 券 收藏 家 问题 。 和 以 前 
一 样 ， 这 两 个 问题 立即 关切 到 散 列 和 其 他 算法 的 实际 实现 的 问题 。 例 如 ， 对 生日 问题 的 解答 将 
告诉 我 们 : 在 我 们 发 现 第 一 次 冲突 之 前 ， 我 们 期 望 已 播 入 了 多 少 个 关键 字 ; 而 对 赠 券 收藏 家 问 
题 的 解答 将 告诉 我 们 : 在 我 们 发 现 已 没有 空 链表 之 前 ， 我 们 期 望 已 插入 了 多 少 个 关键 字 。 

生日 问题 。 在 此 领域 中 ， 最 著名 的 问题 或 许 就 是 生日 问题 ， 该 问题 常常 被 描述 如 下 : 当 
有 多 少 人 聚 在 一 起 的 时 候 ， 两 个 人 有 相同 的 生日 比 没有 两 个 人 有 相同 的 生日 更 有 可 能 ? 每 次 
取 一 个 人 ， 第 二 个 人 与 第 一 个 人 生日 不 同 的 概率 是 (1 - 1/M); 第 三 个 人 与 前 两 人 生日 均 不 同 
的 概率 是 (1 - 2/M)， 依 此 类 推 ， 所 以 N 个 人 的 生日 均 不 相同 的 概率 是 


A Iy 2 A N-D N/M 
UTW mM U M ) ar(y| 


图 8-3 给 出 了 M = 365 时 该 分 布 的 曲线 图 。 
定理 8.1 (生日 问题 ) 当 N 个 球 投入 M 个 沈 中 时 ,没有 冲突 的 概率 由 下 式 给 出 
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在 第 一 个 冲突 发 生 之 前 ， 已 投入 的 球 的 期 望 个 数 是 


j 
1100-5(; Z- 343 
HK? O(M)ARamanujan Q- 函数 。 


1.00 


0.50 


24 180 365 
图 8-3 两 人 具有 相同 生日 的 概率 
证 明 ” 见 前 面 关 于 概率 分 布 的 讨论 。 为 求 得 期 望 值 ， 令 X 表 示 第 一 次 冲突 出 现 之 前 球 数 的 
随机 变量 。 于 是 ， 上 面 给 出 的 概率 恰好 就 是 Pr(X>N)。 将 它们 相 加 ， 我 们 就 得 到 了 关于 期 望 
(My 2 1 NEA 
DUW Md U ) 
由 OCD) 的 定义 《 见 4.7 节 )， 该 表达 式 恰好 就 是 1 + QCM)。 其 渐 近 形式 可 根据 定理 4.8 得 到 。 m 
1 + Q(365) 的 值 在 24 与 25 之 闻 一 一 这 是 我 们 要 找到 两 个 相同 生日 的 期 望 人 数 。 此 问题 也 常 
常 被 称 作 “生日 悖 论 ”， 因 为 人 们 所 期 望 的 人 数 可 能 要 大 的 多 。 
找 出 中 位 数 的 值 也 是 值得 关注 的 ， 即 关于 上 面 给 出 的 概率 最 接近 1/2 时 N 的 值 。 这 可 以 通 
过 一 个 快速 的 计算 机 运算 来 求 出 ， 也 可 以 使 用 渐 近 计算 。 用 渐 近 计算 ， 截 止 点 由 下 式 确定 


(1 LYM 4) NAN LE 
\ MÀ mM) \ M) 2 


pf - =) ~ In(1/2) 


上 ~In2 
1< ty M 
NAN-D in? 
2M 
N ~ V2MIn2 
此 值 略 低 于 答案 : “M = 365, N= 23。 
在 发 生生 日 冲突 之 前 ， 所 聚集 人 数 的 平均 值 中 VM 的 系数 是 VT/12 ~1.2533 ， 而 关于 中 位 
数 (要 聚集 的 人 数 ， 该 人 数 有 50 多 的 把 握 保 证 使 一 个 生日 冲突 发 生 ) 中 VM 的 系数 是 V2in2 ~ 
1.1774 。 这 些 值 对 于 M = 365 分 别 导出 了 近似 值 24.6112 和 22.4944， 有 趣 的 是 我 们 注意 到 ， 在 
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这 个 例子 中 平均 值 和 中 位 数 并 不 渐 近 地 相等 。 

习题 8.4 对 M =365， 需 要 多 少 人 时 才能 有 99% 的 把 握 保 证 有 两 个 人 具有 相同 的 生日 ? 

习题 8.5 ”估计 定理 8.1 中 关于 生日 分 布 的 方差 ， 并 解 构 平均 值 和 中 位 数 的 渐 近 值 之 间 明 显 
不 一 致 的 现象 。 . 

赠 券 收藏 家 问题 。 该 领域 由 另 一 个 著名 的 问题 是 经 典 的 赠 券 收藏 家 问题 : 如 果 每 个 产品 
盒 中 都 有 一 组 M 个 赠 券 中 的 一 个 ， 平 均 而 言 ， 必 须 购买 多 少 盒 产品 之 后 ， 才 能 得 到 所 有 的 赠 
券 ? 这 个 问题 等 价 于 在 所 有 侈 中 都 至 少 有 一 个 球 之 前 ， 已 经 投入 的 球 数 的 期 望 值 是 多 少 ; 或 
等 价 于 在 由 定理 8.1 建 立 的 散 列表 的 所 有 链 上 都 至 少 有 一 个 关键 字 之 前 ， 已 存 人 的 关键 字 个 数 
的 期 望 值 是 多 少 。 

为 解决 这 个 问题 ， 我 们 先 定义 一 个 k- 收 藏 ， 它 是 一 个 字 ， 它 由 k 个 不 同 的 字母 组 成 ， 字 中 
最 后 一 个 字母 是 该 字母 的 唯一 一 次 出 现 ， 且 Wn 是 M 个 可 能 赠 券 的 -收藏 的 集合 。 长 度 为 N 的 
-收藏 的 个 数 除 以 M* 等 于 要 得 到 k 个 不 同 的 赠 券 所 需 收集 的 N 个 赠 券 数 的 概率 。 在 球 -- 侈 模型 
中 ， 这 是 最 后 一 个 球 落 入 一 个 空 侈 的 概率 ， 使 得 非 空 的 侈 数 等 于 k。 现 在 ， 该 OGF 


已 (z)= Pa 


Pz) = (k -1) 2 zl 4 (M -(k-1)) Zl 


(k-1) 


满足 


由 “第 一 ”对 应 要么 第 一 个 赠 券 在 w 中 的 (k - 1) 个 赠 券 (不 包括 最 后 那个 ) 的 集合 之 中 ， 
在 这 种 情况 下 该 字 的 其 余部 分 是 一 个 -收藏 ， 要 么 第 一 个 赠 券 不 在 w 中 的 (k - 1) 个 赠 券 的 
集合 之 中 ， 在 这 种 情况 下 该 字 的 其 余部 分 是 一 个 (k - D)- 收 藏 。 因 此 ， 
P(z) = (k -D)zP, (2) +(M-(k-D)zh(z) 
_ (M-(k-1))z 
ape HO 

其 中 Po(z) = 1。 注 意 Pez/M) 是 关于 k- 收 藏 的 长 度 的 PGF，、 所 以 我 们 有 Px1/M) = 1， 且 平均 长 度 
等 于 Pi(z/MDl, 210 对 方程 | 





_(M~(k-D)z 
PIM) = ak P_(z/M) 

的 两 边 微分 ， 在 z = 1 处 求解 并 化 简 ， 可 得 到 下 面 的 递 推 关 系 

a ED 4 

ER Ma DE Mk 
ERMA 

Å iM) a= -他 -MB Hus) 

dz 0 8 jek -J 


定理 8.2 ( 赠 券 收藏 家 问题 ) 在 所 有 M 个 沈 都 非 空 之 前 ， 所 投入 的 球 的 平均 个 数 是 
MH, = MinM+ My + O() 


其 方差 为 
M’ HÊ — MH, ~ Mr’ /6 





PNARBZARB-*PSROMBER 
M! (N-1 
almi 
证 明 ”平均 值 已 由 上 面 的 讨论 导出 过 了 。 或 者 ， 通 过 套 入 关于 Kk 收藏 的 OGF 的 递 推 关系 ， 
即 可 得 出 显 式 形式 
M(M-1)--(M-k+D , 


P2) = — + 
(= Da 200) 


从 而 可 立即 导出 其 PGF 为 
Miz™ 
P,,(z/ M) = 


M(M - z)(M - 2z)---(M -(M -1)z) 


容易 验证 : Px(1/M) = 1， 关 于 z 微 分 并 代入 z = 1 处 的 值 就 可 得 到 和 前 面 所 给 出 的 同样 的 MEw。 
再 微分 一 次 ， 并 应 用 定理 3.10， 就 可 导出 所 要 证 明 的 方差 的 表达 式 。 根 据 3.13 节 中 的 表 3-7， 
利用 等 式 


M 


Ny wo 
x uk © (1=z)(1- 22): - Mz) 


通过 在 PGF 中 提取 系数 ， 将 立即 得 出 该 问题 的 分 布 。 = 
习题 8.6 在 表 8-1 中 找 出 所 有 的 2- 收 藏 和 3- 收 藏 ， 然 后 计算 Px(z) 和 Pi(z)， 并 检查 z 的 系数 。 


第 二 类 Stirling 数 。 正 如 在 3.13 节 中 所 指出 过 的 那样 ，Stirling“ 子 集 ” 的 个 数 [a eta 


将 一 个 六 元素 集 合 划分 成 M 个 非 空子 集 的 方式 数 。 我 们 将 在 本 节 稍 后 部 分 看 到 该 事实 的 一 个 推导 。 
从 这 个 定义 出 发 ， 可 以 导出 赠 券 收藏 家 分 布 的 另外 一 个 推导 方法 ， 该 方法 如 下 : 考虑 N - 1 个 球 
的 集合 和 M - 1 个 竹 。 由 于 侈 的 次 序 无 关 紧 要 ， 所 以 N - 1 个 球 落 入 M - IPD 


Boa [OLDE ， 任何 一 个 多才 可 以 是 最 后 那个 装 人 球 的 佑 ， 所 以 个 球 中 的 最 后 一 人 于 


RANT eR Tem | Lc! HIREM 名 可 得 出 和 定理 82 中 所 


给 出 的 完全 一 样 的 结果 。 

定理 8.2 中 关于 平均 值 的 经 典 推导 (比如 说 ， 参 见 Feller[9]) 是 这 样 进行 的 : 一 旦 收集 了 k 
个 赠 券 后 ， 则 需要 /个 或 更 多 个 额外 的 盒子 来 得 到 下 一 个 赠 券 的 概率 是 

/kV 1 _ MM 
2 Am) = 1l-k/M_ M-k 
对 k 求 和 就 可 得 出 和 前 面 一 样 的 结果 MHw。 此 推导 所 需 的 计算 量 比 上 面 的 推导 所 需 的 计算 量 要 
少 ， 但 生成 函数 能 抓 住 问题 的 整体 结构 ， 使 得 计算 方差 时 不 用 明显 地 担心 所 涉及 的 随机 变量 
之 间 的 相关 性 问题 ， 并 且 还 能 给 出 完整 的 概率 分 布 。 

习题 8.7 通过 部 分 分 式 展开 EGF， 证 明 第 N 个 球 落 入 最 后 空 会 中 的 概率 也 可 由 交错 和 式 
5 (ev{i-d) kaz. 


0 < j<M J 


习题 8.8 给 出 一 个 至 少 收集 N 个 盒子 而 得 到 M 个 赠 券 的 一 个 完全 收藏 的 概率 表达 式 。 
满 射 的 直接 计数 。 不 存在 空 倪 的 球 - 侈 序列 (每 个 字母 至 少 出 现 一 次 的 字 ) 叫做 满 身 
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(surjections ) 。 满 射 在 许多 场合 下 都 存在 ， 因 为 它们 对 应 于 把 N 个 物品 恰好 分 成 M 个 不 同 的 非 
空 组 。 这 里 我 们 考 虐 一 个 方法 来 对 它们 进行 计数 ， 该 方法 类 似 于 我 们 在 第 5 章 和 第 6 章 见 过 的 
几 个 论证 。 每 个 长 度 为 fl 的 M- 满 射 都 对 应 于 长 度 为 fl + 1 的 M 个 不 同 的 M- 满 射 这 M 个 不 
同 的 满 射 是 通过 向 原来 的 满 射 中 追加 一 个 1 到 兴 间 的 整数 而 得 到 的 ; BREA INC 一 
1)- 满 射 都 对 应 于 长 度 为 If1 + 1 的 M 个 不 同 的 M- 满 射 ， 这 M 个 不 同 的 M- 满 射 是 通过 在 原来 
满 射 中 的 元 素 间 M 个 可 能 的 位 置 中 的 任 一 位 置 上 插入 M 而 得 到 的 。 每 一 个 M- 满 射 都 是 通过 
这 种 方法 生成 的 (如果 有 一 个 单独 的 M， 将 其 去 掉 就 得 到 对 应 的 (M - 1) 满 射 ; 否则 去 掉 
最 后 那个 元 素 )。 因 此 ， 其 EGF 
Z 
F,,(2) = È iil 
Ih 


满足 
zl Zi 
Fu) = 应 MUT +1)! RATIT 
J ae SRN 
将 其 微分 并 化 简 后 得 
F(z) = MF, (z)+ MFy_,(z) 
其 解 为 


F,,(2) = (e* ~1)" 
这 是 一 个 关于 第 二 类 Stirling 数 的 指数 生成 函数 ( 见 表 3-7)。 因 此 ， 我 们 就 证 明了 长 度 为 N 的 M- 
BHE wal ye 此 外 ， 从 组 合 的 定义 出 发 ,第 二 类 Stirling 数 是 对 N 个 元 素 划 分 成 M 个 子 集 


的 计数 ， 这 也 能 得 到 同一 结果 的 一 个 直接 证 明 ， 因 为 这 些 集 合 的 M! 个 次 序 中 的 每 一 个 都 产 
生 一 个 满 射 。 . . 

习题 8.9 考虑 满 射 间 的 “最 大 ”对 应 : 给 定 一 个 长 度 为 N 的 M- 满 射 ， 考虑 通过 去 掉 M 的 
所 有 出 现 而 形成 的 (M - 1D)- 满 射 。 求 使 用 这 种 对 应 关系 的 满 射 的 EGF 。 

习题 8.10 “号 一 个 程序 ， 打 印 出 所 有 长 度 为 N 的 M- 满 射 ， 只 要 这 样 的 满 射 个 数 小 于 1000 
时 就 要 打印 。 

习题 8.11 用 二 项 式 定 理 展开 (e* - 1)*， 证 明 


M , N 
Naz” JFy(z) = >( joes = mfy) 
J 


(见习 题 8.7) 

习题 8.12 EH: 把 N 个 元 素 分 成 非 空子 集 的 方式 数 为 Ni[z"Je””'〈 该 结果 定义 了 一 个 所 
谓 的 Bell 数 )。 

习题 8.13 证明 : 


z kN 
Ni[z" Jeo" a 
e Sh k! 


习题 8.14 KTH — ž Stirling% H — EGF Hexp(u(e* - 1)). 
习题 8.15 ”应 用 “最 大 ”对 应 求 长 度 为 N 的 M-- 字 的 个 数 时 可 以 导致 递归 


gS 
o0 
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N 


Fyn = > (p) Erna 
o [TKM 


[429] 说 明 如 何 利 用 BGF 来 求解 这 个 递归 。 


高 速 绽 存 算法 。 赠 券 收 藏 家 的 结果 是 经 典 的 ， 它 们 在 大 量 有 用 的 算法 分 析 中 都 有 着 直接 
的 意义 。 例 如 ， 考 虑 一 个 “请 求 分 页 ”系统 ， 其 中 大 页 高 速 缓 存 通 过 保存 个 最 新 引用 过 的 页 
来 增强 M- 页 内 存 的 性 能 。 如 果 “ 页 引用 ”是 随机 的 ， 那 么 赠 券 收藏 家 分 析 将 会 给 出 在 高 速 组 
存 被 填 满 之 前 的 引用 次 数 。 


推论 在 一 个 必 M- 页 的 内 存 系 统 中 ， 一 个 大 小 为 k 的 高 速 丝 存 被 填 满 之 前 ， 页 引用 的 平 
均 次 数 是 M(Hy - Hy_ 站 。 假定 页 引用 是 独立 的 和 均匀 分 布 的 。 


证 明 该 结果 可 由 定理 8.2 的 证 明 中 所 给 出 的 Pi(z) 的 计算 直接 得 出 。 E 

注意 ， 尽 管 在 所 有 的 页 都 到 达 之 前 ， 高 速 缓 存 器 已 取得 了 ~MinM 次 引用 ， 但 大 小 为 aM 的 
高 速 缓存 器 在 大 约 Min(L(L - o) 次 引用 后 才 被 填 满 。 例 如 ， 一 个 大 小 为 M/2 的 高 速 缓存 器 在 
大 约 进 行 了 Min2 ~ 0.69M 个 页 引用 后 将 被 填 满 ， 结 果 节 省 了 19% 的 空间 。 在 实际 中 ， 引 用 并 不 
是 随机 的 ， 而 是 相关 的 和 不 均匀 的 。 例 如 ， 最 近 引 用 的 页 很 可 能 被 再 次 引用 ， 结 果 导 致 高 速 
缓存 更 高 的 节省 量 。 因 此 ， 对 实际 情况 的 分 析 应 给 出 关于 高 速 缓 存 效率 一 些 更 低 的 界 。 此 外 ， 
这 样 的 分 析 也 提供 了 在 非 均匀 概率 模型 下 有 关 更 “现实 的 ”分 析 的 一 个 起 点 〈 见 Flajolet、 
Gardy 和 Thimonier[10] ) 。 

生日 问题 和 赠 券 收藏 家 问题 出 现在 用 球 装填 容器 过 程 中 不 同 的 两 端 。 在 生日 问题 中 ,我 
们 加 入 球 并 观察 第 一 次 得 到 超过 一 个 球 的 容器 ， 平 均 而 言 ， 这 要 花 大 约 VmM/12 步 。 继 续 加 入 
SR, 平均 约 MinM 步 后 ， 我 们 最 终 将 每 个 容器 至 少 放 入 了 一 个 球 ， 达 到 了 收藏 家 问题 的 结果 。 
在 这 两 个 结果 之 间 ， 当 M = N 时 ， 我 们 将 在 下 一 节 中 看 到 大 约 有 1 - Le = 36% 的 容器 是 空 的 ， 
而 且 其 中 的 一 个 容器 中 应 大 约 有 lnN/ininN 个 球 。 

这 些 结果 对 散 列 算法 有 着 各 种 实际 的 应 用 。 首 先 ， 生 日 问题 隐 含 着 的 冲突 往往 会 在 早期 
出 现 ， 所 以 必须 设计 解决 冲突 的 策略 。 其 次 ， 填 人 过 程 往往 很 不 均衡 ， 结 果 是 有 相当 多 的 空 
链表 和 几 个 长 链表 (几乎 是 对 数 长 度 )。 第 三 ， 直 到 相当 多 次 的 插入 之 后 ， 空 链表 才 可 能 完全 
消失 。 

Feller[9] 以 及 Flajolet、Gardy 和 Thimonier[10] 就 生日 问题 、 赠 券 收藏 家 问题 及 其 相关 的 应 
用 问题 给 出 了 更 多 的 细节 。 


8.4 占有 约束 与 极 值 参数 


解决 生日 问题 要 涉及 对 排列 的 个 数 计数 的 问题 (没有 一 个 字母 出 现 两 次 的 字数 ) ， 解 决 赠 
券 收藏 家 问题 要 涉及 对 满 射 的 个 数 计数 的 问题 〈 每 个 字母 至 少 出 现 一 次 的 字数 )。 本 节 ， 我 们 
将 描述 这 两 个 关于 字 的 计数 问题 的 一 般 化 推广 。 

在 第 6 章 ， 我 们 章 讨 论 过 带 有 圈 长 约束 的 排列 计数 问题 ; 在 第 7 章 中 ， 我 们 又 讨论 了 带 有 
连续 位 模式 约束 的 位 串 计 数 问题 。 本 池 ， 我 们 将 利用 类 似 的 技巧 讨论 带 有 字母 出 现 频率 约束 
的 字 的 计数 问题 ， 或 等 价 地 说 ， 带 有 占有 约束 的 球 -多 配置 问题 ， 或 带 有 冲突 频率 约束 的 散 列 
序列 ， 或 带 有 变化 范围 频率 约束 的 函数 。 

表 8-4 给 出 了 3- 字 的 情形 。 表 中 上 方 四 行 给 出 了 任何 一 个 字母 的 出 现 不 多 于 1、2、3 和 4 次 
的 3- 字 数 ， 下 方 四 行 给 出 了 每 个 字母 至 少 出 现 1、2、3 和 4 次 的 3- 字 数 (因此 第 五 行 对 应 于 满 
射 )。 所 给 出 的 数 是 频数 统计 ， 因 此 ， 把 每 一 项 都 除 以 M" 就 可 得 到 表 8-2。 第 四 列 对 应 于 表 8-1。 
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这 些 数 之 间 有 着 许多 联系 ， 利 用 非常 类 似 于 第 6 章 中 处 理 排列 的 方式 ， 我 们 可 以 很 容易 地 通过 
对 符号 法 的 系统 应 用 ， 对 这 些 联系 予以 揭示 。 
表 8-4 ” 带 有 字母 频率 约束 的 3- 字 的 统计 或 带 有 占有 限制 的 3 个 仇 中 球 的 配置 或 
带 有 冲突 约束 的 散 列 序列 ( 表 大 小 为 3) 








频率 球 ~ 1 2 3 4 5 6 7 8 9 10 11 12 
<2 3 6 6 

<3 3 9 24 54 90 90 

<4 3 9 27 78 210 510 1050 1680 1680 

<5 3 9 27 B81 240 690 1890 4830 11130 22050 34650 34650 
>0 6 36 150 540 1806 5796 18150 55980 171006 519156 
>1 90 630 2940 11508 40950 125100 445896 
>2 1680 12600 62370 256410 
>3 34650 





最 大 占有 。 由 一 个 给 定 字 母 的 最 多 k 次 出 现 所 构成 的 字 的 EGF 是 1 + z + 27/2! +--+ zk 
所 以 


(1+Z+2 seer z k 


是 M 个 不 同 字母 中 的 每 一 个 字母 最 多 kK 次 出 现 所 构成 的 字 的 EGF。 这 是 对 标号 对 象 符号 法 的 一 
个 直接 应 用 ( 见 定理 3.8)。 去 掉 关 于 k 的 约束 就 可 得 到 EGF 


(+ zz? /24e+ zt Skl)" =e 
所 以 长 度 为 N 的 M- 字 的 总 数 就 是 Nilz 1e = M*"， 该 结果 和 和 我 们 所 期 望 的 结果 是 一 样 的 。 
取 k = 1， 得 EGF 为 
(1 +z)" 


它 表 明了 每 个 字母 〈 都 不 相同 的 字母 ) 最 多 出 现 一 次 的 字 的 个 数 是 


M 
NI[z* +z)" = MM -1)(M -2)---(M-N+1) = wj] 


这 个 量 也 叫做 从 MM 个 元 素 中 选 出 N 个 元 素 的 所 有 可 能 的 排列 数 ， 或 有 序 的 组 合 数 。 将 排列 数 除 
以 M"* 就 能 得 到 定理 8.1 中 关于 生日 问题 的 概率 分 布 ， 因 而 符号 法 的 使 用 提供 了 一 个 直接 的 一 般 
化 方法 。 


定理 8.3 (最 大 占有 ) 每 个 字母 最 多 有 k 次 出 现 的 长 度 为 N 的 字 的 个 数 是 
k M 


lead Z < 
NI[z (irie + 本 


M 
特别 地 ， 排 列 数 (k= 1) 是 xl 人 wj: 


证 明 见 上 面 的 讨论 。 a 
表 8-4 中 上 半 部 分 的 数 对 应 于 1 <k< 4 时 计算 这 些 EGF 的 系数 。 例 如 ， 第 二 行 对 应 于 展开 式 
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2 3 

z 9 3 1 
1+Zz+ 二 -| =1+3z+ +42° 6 
( z 27 z tae wed *3* 


-1432+92 424% +54 42 4902-4902 
3! 4! 5! 6! 
习题 8.16 ” 求 所 有 字母 频数 为 偶数 的 M- 字 的 EGF。 
习题 8.17 证 明 : 对 所 有 的 k>0， 把 M(k + 1 个 球 分 布 到 M 个 盆 中 、 所 有 伪 中 的 球 数 都 大 
于 k 的 方式 数 等 于 把 M(Kk + 1) - 1 个 球 分 布 到 M 个 盆 中 、 所 有 伪 中 的 球 数 都 小 于 (上 + 2) 的 方式 数 
见 表 8-4) 。 对 这 个 量 给 出 一 个 阶乘 的 商 的 形式 的 显 式 公式 。 
习题 8.18 ”把 球 抛 入 N 个 盆 中 ， 在 第 二 个 冲突 发 生 以 前 ， 所 抛 入 的 期 望 球 数 是 多 少 ? 这 里 
假定 “冲突 ” 指 的 是 事件 “把 球 扔 入 一 个 非 空 的 仅 中 。” 
习题 8.19 ”把 球 抛 入 N 个 盆 中 ， 在 第 二 个 冲突 发 生 以 前 ， 所 抛 入 的 期 望 球 数 是 多 少 ? 这 里 
我 们 假定 “冲突 ” 指 的 是 事件 “把 球 抛 入 一 个 恰好 只 有 一 个 球 的 盆 中 。 
习题 8.20 ”对 不 含 相同 字母 三 次 出 现 的 M- 字 的 个 数 给 出 一 个 显 式 表达 式 。 
习题 8.21 像 图 8-3 那 样 ， 对 三 人 间 生 日 的 概率 做 出 一 个 曲线 图 。 
习题 8.22 对 M = 365， 需 要 有 多 少 人 时 才能 保证 有 50% 的 把 握 使 三 人 具有 相同 的 生日 ? 


四 人 又 如 何 ? 
最 小 占有 。 通 过 与 上 面 关 于 最 大 占有 类 似 的 论证 可 以 得 出 ， 每 个 字母 出 现 多 于 Kk 次 的 字数 
的 EGF 为 
(ez —1-z-z /2 zt kt 
特别 地 ， 当 k= 1 时 ， 将 给 出 每 个 字母 至 少 出 现 一 次 的 字数 的 EGF (ASR BPR): 
(e — 1)" 


这 构成 计算 满 射 数 的 另 一 种 直接 的 方法 ， 我 们 将 考虑 对 前 一 节 赠 券 收藏 家 问题 的 推广 。 
定理 8.4 (最 小 占有 ) 每 个 字母 最 少 出 现 k 次 的 长 度 为 N 的 字 的 数目 是 
mfa z g y" 
Miz fe -pa él 
特别 地 ， 长 度 为 N 的 M- 满 射 的 个 数 是 
N1[z% \(e? -D = mfa) 


证 明 见 上 面 的 讨论 。 a 
表 8-4 中 下 半 部 分 的 数 对 应 于 这 些 EGF 的 计算 系数 。 例 如 ， 倒 数 第 三 行 对 应 于 展开 式 
z? pa z ° 
(ef - 1-2 (Zi 6 24 St 
z 1, 7 s 137 2 13 10 4. 


1 
3° TE t36 t 4320 tms" 


ii 


907. +6304 2040 = +1 1508 + 40958 
6! 9! 10!” 


至 于 最 大 占有 ， 生 成 函数 简明 地 描述 了 这 些 值 的 计算 。 
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表 8-5 根 据 定理 8.3 和 8.4， 对 带 有 字母 频数 约束 的 字 的 计数 问题 的 生成 函数 进行 了 总 结 。 
这 两 个 定理 与 关于 带 有 圈 长 约束 的 排列 的 定理 6.2 和 6.3 是 相对 应 的 。 这 4 个 定理 ， 包 括 排 列 、 
满 射 、 对 合 、 错 位 排列 的 分 析 以 及 它们 的 推广 ， 都 是 值得 我 们 回顾 的 ， 因 为 它们 对 大 量 的 组 
合 结构 和 经 典 的 计数 问题 给 出 了 一 个 统一 的 描述 方式 。 

描述 定理 8.3 和 8.4 中 函数 的 渐 近 值 的 特征 ， 要 涉及 对 多 元 渐 近 问题 的 讨论 ， 其 中 每 一 个 国 
数 都 根据 所 考虑 的 变化 范围 有 不 同 的 渐 近 体系 。 这 也 可 以 看 成 是 我 们 对 二 项 分 布 处 理 方法 的 
一 个 推广 ( 见 第 4 章 以 及 下 面 的 讨论 )， 其 中 ， 不同 的 近似 用 于 参数 值 不 同 的 变化 范围 。 例 如 ， 
对 固定 的 M， 当 N->o 时， 系数 [z*](1 +z + z/2)” 最 终 将 变 为 0。 同 时 ， 对 固定 的 M， 系 数 之 和 
为 (5/2)”， 并 在 5M/4 附 近 有 一 个 峰 ， 且 在 峰 附 近 可 以 得 到 一 个 关于 系数 的 正 态 副 近 。 因 此 ， 
当 M 和 成 比例 时 ， 存 在 着 有 趣 的 区 域 。 类 似 地 ， 当 M 固 定时 ， 我 们 可 以 考虑 当 N 一 " 时 
Bie- 1 - z)* 的 情况 。 这 里 ， 我 们 是 在 统计 每 个 值 至 少 假定 两 次 的 函数 的 个 数 。 但 从 概率 
的 角度 看 ， 这 些 函 数 中 除了 极 少 一 部 分 外 ， 绝 大 部 分 将 对 所 有 的 值 都 至 少 假定 两 次 (实际 上 
大 约 N/IM 次 )。 因 此 、 对 固定 的 MM， 这 个 系数 渐 近 于 [z*1(e)*。 此 外 ， 当 N 增 加 并 变 到 0O(MD) 时 ， 
将 存在 一 个 有 趣 的 转变 。 这 样 的 渐 近 结果 可 用 鞍点 法 得 到 很 好 的 量化 ， 正 如 Kolchim[23] 所 给 
出 的 详细 讨论 一 样 ( 也 可 参见 [12] )。 


表 8-5 ” 带 有 字母 频数 约束 的 字 的 EGF， 或 带 有 占有 约束 的 球 - 丛 配置 ， 


或 带 有 冲突 频数 约束 的 散 列 序列 
158, HK | z Ik! 
RAF . ne 
所 有 占有 >1 ( 满 射 ) (e -1) 
所 有 占有 >k (e:—1-z-z / 2b z RLY 
无 占有 >1 CHEF) (l+z)" 
无 占有 > 大 (1L+Zz+z2271244 4 ct kt! 


ONE 
习题 8.23 RHEE ERMAED APRAH CHAKRA FRR, 

MARKEA. MNAR WEM EP, RESP ERS TEES? 这 
是 一 个 极 值 参数 ， 类 似 于 我 们 已 经 遇 到 过 的 另外 几 个 极 值 参数 。 正 如 我 们 对 树 高 、 排 列 中 的 
最 大 圈 长 以 及 其 他 参数 所 做 过 的 一 样 ， 我 们 可 以 利用 生成 函数 来 计算 最 大 占有 。 

根据 定理 8.4， 我 们 可 以 写 出 关于 球 -- 爹 配置 中 至 少 有 一 个 舍 的 占有 大 于 k 的 生成 函数 ， 或 
等 价 地 说 ， 那 些 最 大 占有 大 于 k 的 生成 函数 


2 3 4 5 
e — (1 324942724 81 +243% +- 
2! 3! 4! 4! 
z? 2 z‘ z 
e” —(1+2) = 32- +212 +81% +2432 +- 
2! 3! 4! 5! 
2\3 3 4 5 i 
-rat 村] = 64272415344. 
2! 3! 4! 5! 
2 3\3 4 5 
e -hiszi = 3243324... 
2! 3} A! 5! 
2 3 4\3 5 
eheti] = 3.4... 
2! 3! 4! 5! 





SS. REHM, RRS SRA HET, (RA) 最 大 占有 的 指数 CGF 为 
s312% 4542 41922 46752 4 


将 其 除 以 3"， 即 可 得 出 表 8-2 中 所 给 出 的 平均 值 。 一 般 来 说 ,平均 最 大 占有 可 由 下 式 给 出 : 
vi 


Ie "3 “| P J | 


Gonnet[14] 证 明了 当 N 和 M 以 NM = a (oa 为 常数 ， 上 述 结 果 中 的 主 项 与 xc 无 关 ) 的 方式 随 着 
N，M~o 时 ， 上 述 结果 为 ~lnN/lIninN。 因 此 ， 比 如 说 ， 当 使 用 程序 8.1 时 ， 平 均 而 言 ， 最 长 
的 链表 的 长 度 将 是 ~lnMWininN。 

习题 8.24 ” 当 N 个 球 分 布 到 MM 个 涩 中 时 ， 导 出 关于 期 望 最 小 占有 的 指数 CGF 的 表达 式 。 对 
M 和 NN 小 于 20 时 的 值 列 出 表格 。 . 

习题 8.25 在 一 个 随机 的 字 中 ， 连 续 相 同 元 素 的 块 的 平均 个 数 是 多 少 ? 

习题 8.26 分 析 字 中 的 “上 升 ” 和 “游程 ”( 参 见 6.1 节 )。 


8.5 占有 分 布 
一 个 MM- 字 中 恰好 包含 一 个 给 定 值 的 个 实例 的 概率 是 


@ Me 人 
\m)] \ mM) 
N 
这 个 式 子 可 以 通过 一 个 直接 的 计算 建立 起 来 : 大】 (选取 位 置 ) RAM (那些 字母 具有 给 


定 值 的 概率 ) 乘 以 (1 - 1/M)* (其 他 字母 不 具有 给 定 值 的 概率 ) 。 我 们 在 第 4 章 曾 详细 研究 过 这 
个 分 布 ， 也 就 是 我 们 熟知 的 二 项 分 布 或 伯 努 利 分 布 ， 在 本 书 中 ， 我 们 已 经 在 多 种 不 同 的 场合 
下 通 到 过 这 个 分 布 了 。 例 如 ， 表 4-6 给 出 了 当 M = 2 时 的 值 。 另 一 个 例子 在 表 8-6 中 给 了 出 来 ， 
它 给 出 了 当 M = 3 时 对 应 的 值 ; 该 表 中 第 4 行 对 应 于 表 8-1。 


表 8-6 关于 M = 3 的 占有 分 布 [ Jaare : 
PN 个 球 分 布 到 3 个 竹中 之 后 ， 一 个 竹中 有 K 个 球 } 








N ke 0 1 2 3 4 5 6 

1 0.666667 0.333 333 

2 0.444444 0.444.444 0.111 111 

3 0.296296 0.444 444 0.222222 0.037 037 

4 0.197 531 0.395 062 0.296296 0.098765 0.012 346 

5 0.131687 0.329 218 0.329218 0.164609 0.041152 0.004 115 

6 0.087 791 0.263 375 0.329218 © 0.219479 0.082305 0.016461 0.001 372 


涉及 两 个 独立 变量 (REMEM) 的 复杂 情况 以 及 对 分 布 不 同 部 分 的 关注 ， 意 味 着 我 们 
必须 对 特定 的 应 用 小 心 准确 地 刻 划 出 分 布 的 特性 。 球 - 侈 模型 所 隐 含 的 直觉 知识 对 我 们 实现 这 
一 目的 常常 很 有 帮助 。 

本 节 ， 我 们 将 考查 多 种 参数 值 分 布 的 准确 公式 和 渐 近 估计 。 表 8-7 给 出 了 几 个 样本 值 。 例 
如 ， 当 100 个 球 分 布 在 100 个 侈 中 时 ， 我 们 期 望 大 约 18 个 侈 中 有 2 个 球 ， 但 任何 一 个 俩 中 有 多 达 
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LOM ERAT A REE: T LAAKERI. BA, 100A AE, 102A PRAT 
REA LOTPER (She HARA REA TBST ER), (RD AREA 2 TERA SE. ERER Eh 
Br LBA), XER A IE AU AA eR. RT RIE Be RAI 
而 言 ， 这 两 种 方法 对 于 刻 划 这 种 分 布 都 是 准确 的 和 有 用 的 。 

上 述 分 布 的 推导 很 简单 ， 但 是 用 一 种 稍微 不 同 的 方式 一 一 黑 积 计数 的 方式 一 一 来 推导 还 是 
值得 的 。 对 于 N 个 球 和 M 个 侈 来 说 ， 一 个 倪 中 有 k 个 球 的 球 -- 侈 序列 (长 为 N 的 那些 M- 字 ) 的 总 
数 可 由 下 式 给 定 : 





CW = 之 人 出 现 k 次 的 长 度 为 N 的 M- 字 的 个 数 } 


= N Mt N qN- 
-jw 1) -Mj 1) 


us 


RH TBGF, MILE, BANAT LAABGPRU RE. ERRAM RS Toe 
典 公式 ， 我 们 在 这 里 将 重 述 这 个 公式 ， 并 根据 第 4 章 归 纳 出 一 些 渐 近 结果 。 


表 8-7 占有 分 布 的 例子 








È Ek 占有 AKA ERED EE Be 
N 1 k 1 N-k 

， HEE 
2 2 0.500 000 000 
10 2 0.087 890 625 
2 10 10 0.001 953 125 
10 2 2 0.100 000 000 
10 10 2 1.937 102 445 
10 10 10 0.000 000 001 
10 100 2 0.016 231 966 
10 100 10 1.318 653 468 
100 2 2 0.010 000 000 
100 10 2 0.415 235 112 
100 10 10 0.000 000 000 
100 100 2 18.486 481 882 
100 100 10 0.000 007 006 





定理 8.5 (占有 分 布 ) 当 N 个 球 随机 地 分 布 到 M 个 贫 中 时 ， 具 有 K 个 球 的 平均 筑 数 是 


Maa (ma) 


SME XB k=N/M+xVN/M-N/M 时 (其 中 x=0O(1))， 上 式 为 


m+ o|) ( 正 态 逼近 ) 


V2r WN 
当 N/M = a >0 固 定 、 且 k= O(1) 时 ， 上 式 为 
ate" 


M +0(M) (idi ) 





k! 


A 





ee 


证 明 Wate. LPR SE 4 BIND (214 COMES). m 
推论 当 N/M = a (常数 ) 时 ， 平 均 空 党 数 渐 近 于 Me-"。 

推论 每 个 党 中 的 平均 球 数 是 NM， 标 准 偏差 为 IJN/M_N/M? 。 

证 明 用 前 面 给 出 的 累积 开销 乘 以 w* 和 z*， 我 们 可 得 BGF 


N 
Cu, z) = > Cuyt” = » 3 Jm- DY utz” 
OK >0 Ok>0 k 


= DM- 
0 
1 


“1-(M-14+u)z 


上 式 除 以 M”， 或 等 价 地 用 z/M 代 替 z， 就 可 将 该 累积 BGF 转 换 成 稍微 容易 操作 一 些 的 PGF。 对 
该 PGF 关 于 4 微分 ， 并 在 u = 1 处 求解 ， 即 可 得 出 和 表 3-6 中 一 样 的 结果 : 


pr PI g" z N 
1 


ðu 








wo Cz/ M) 


Z 
| au? 


所 以 平均 值 为 WM， 方差 为 WIN - 1)/M? + N/M - (WUM)”， 将 其 简化 即 可 得 到 所 述 结果 。 m 
我 们 曾 使 用 熟知 的 经 典 方 法 给 出 过 上 述 计 算 ， 然 而 符号 法 提供 了 一 个 快捷 的 推导 方式 。 
对 一 个 特定 的 倪 而 言 ， 一 个 球 未 抛 入 该 侈 的 BGF 是 (M - 1)z， 而 一 个 球 抛 入 该 过 的 BGF 是 xzi 
因此 和 以 前 一 样 ， 关 于 球 的 一 个 序列 的 常规 BGF 是 
1 


一 N 
Dx P+ we)" “OCT 


F(u,z)= (e +(u- Di) 


HER ARTERY RREK: 


k N 
NITzx Fu. 2) = NI” Me™ Z _M/ NM 
ðu k! k 





u=] 


(类 似 的 一 个 推导 见 6.4 节 ) 

占有 分 布 以 及 二 项 分 布 有 着 大 量 的 应 用 ， 人 们 对 这 两 个 问题 也 进行 过 广泛 地 研究 ， 所 以 
导出 上 述 这 些 结 果 的 其 他 方法 也 有 许 许多 多 。 事 实 上 ， 重 要 的 是 要 注意 ;每 个 倪 中 的 平均 球 
数 一 一 这 个 看 起 来 似乎 是 最 重要 的 、 最 需要 分 析 的 量 一 一 是 与 分 布 完全 无 关 的 。 无 论 球 在 翁 中 
是 如 何 分 布 的 ,累积 开销 都 是 N: 统计 每 个 侈 中 的 球 数 然 后 求 出 总 数 , 就 等 价 于 直接 统计 球 数 。 
不 论 球 是 不 是 随机 分 布 的 ， 每 个 侈 中 的 平均 球 数 都 是 N/M。 方 差 要 告诉 我 们 的 是 : 一 个 给 定 
的 侈 中 的 球 数 是 否 可 以 期 望 在 NM 的 附近 。 
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图 8-4 和 8-5 给 出 了 在 M 的 各 种 值 下 占有 分 布 的 图 示 。 图 8-4 中 最 下 方 那 组 曲线 恰好 对 应 于 
图 4-2， 是 中 心 在 1/5 处 的 二 项 分 布 。 图 8-5 是 对 M 较 大 时 的 描述 ， 用 泊 松 逼近 比较 合适 。 图 8-5 
中 下 方 两 复 的 极限 曲线 与 图 4-3 中 上 方 两 徐 的 极限 曲线 是 相同 的 ， 它 们 都 是 关于 V = 60. A= 1 
AIA = 2 时 的 泊 松 分 布 。( 图 4-3 中 关于 N = 60 的 其 他 极限 曲线 是 关于 M = 15 和 M = 12 时 的 占有 
分 布 。) 当 M 相 对 于 N 变 小 时 ， 我 们 就 进入 了 图 8-4 所 阐述 的 范围 内 了 ， 在 这 个 范围 内 用 正 态 逼 
近 是 比较 合适 的 。 





0.562 








N/5 


图 8-4 关于 M 较 小 且 2<N< 60 时 的 占有 分 布 (k 轴 按 N 的 比例 标 度 ) 


0.513 








0.135 





图 8-5 关于 M 较 大 且 2< N< 60 时 的 占有 分 布 (k 轴 按 N 的 比例 标 度 ) 


习题 8.27 当 100 个 球 随机 分 布 到 100 个 伪 中 时 ， 其 中 的 一 个 盆 得 到 所 有 球 的 概率 是 多 少 ? 

习题 8.28 当 100 个 球 随机 分 布 到 100 个 盆 中 时 ， 每 个 盆 得 到 一 个 球 的 概率 是 多 少 ? 

习题 8.29 关于 平均 空 伪 数 的 标准 差 是 多 少 ? 

习题 8.30 当 N 个 球 随 机 分 布 到 M 个 盆 中 时 ， 每 个 贪 中 有 偶数 个 球 的 概率 是 多 少 ? 

习题 8.31 证 明 : 对 N>>1 有 

Ch = (M - Cia + Chyna) 

并 由 此 事实 编写 一 个 程序 ， 对 任意 给 定 的 M， 打 印 出 占有 分 布 。 

带 有 分 离 链表 的 散 列 分 析 。 占 有 分 布 的 性 质 是 散 列 算法 分 析 的 基础 。 例 如 ， 在 一 个 使 用 
分 离 链 表 的 散 列表 中 ， 一 次 不 成 功 的 搜索 要 涉及 对 一 个 随机 链表 的 访问 ， 并 沿 着 该 链表 访问 
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到 表 尾 。 因 此 ， 这 样 的 一 次 搜索 的 开销 满足 一 个 占有 分 布 。 


定理 8.6 ( 带 有 分 离 链表 的 散 列 ) 对 NN 个 关键 字 使 用 一 个 长 为 M 的 表 ， 平 均 而 言 ， 带 有 
分 离 链表 的 散 列 对 不 成 功 的 搜索 需要 进行 N/M 次 探测 ， 对 成 功 的 搜索 需要 进行 (N + 
IVOM RRA, 


证 明 关于 不 成 功 搜索 的 结果 可 以 直接 从 前 面 的 分 析 中 得 出 。 访 问 表 中 已 存在 的 一 个 关键 


字 的 开销 和 把 这 个 关键 字 存 人 表 中 的 开销 是 相等 的 ， 所 以 ， 一 次 成 功 搜索 的 平均 开销 就 是 在 
建 表 过 程 中 所 有 不 成 功 搜 索 的 平均 开销 ， 即 : 





Ni eft nM 2M 


不 成 功 搜索 和 成 功 搜索 的 开销 之 间 的 这 种 关系 对 许多 查找 算法 都 成 立 ， 包 括 二 又 查找 树 在 内 。 © 

切 比 雪夫 不 等 式 表明 : 对 1000 个 关键 字 ， 我 们 可 能 要 使 用 100 个 链表 ， 且 每 个 链表 中 期 户 
有 10 个 数据 项 ， 并 且 至 少 有 90% 的 把 握 保证 一 次 搜索 所 检查 的 项 数 不 会 超过 20 个 。 对 1000 000 
个 关键 字 ， 我 们 可 能 要 使 用 1000 个 链表 ， 且 切 比 轨 夫 不 等 式 表 明 我 们 至 少 有 99.9% 的 把 握 保证 
一 次 搜索 所 检查 的 项 数 不 会 超过 2000 个 。 尽 管 切 比 雪夫 界 在 一 般 情况 下 都 是 适用 的 ， 但 在 我 
们 所 讨论 的 这 种 情况 下 ， 这 个 界 还 是 相当 粗糙 的 ， 我 们 可 以 通过 直接 的 数值 计算 或 通过 关于 
1 000 000 个 关键 字 和 表 长 为 1000 的 泊 松 逼近 公式 证 明 : 探测 次 数 超过 1300 次 的 概率 的 量 级 为 
10-2， 探 测 次 数 超过 2000 次 的 概率 的 量 级 为 10”。 

此 外 ， 我 们 还 能 了 解 到 有 关 散 列 结构 的 其 他 许多 性 质 。 例 如 ， 图 8-6 是 函数 e“ 的 图 形 ， 它 
告诉 我 们 : 空 链表 的 百分比 是 关键 字 的 个 数 与 链表 的 个 数 之 比 的 一 个 函数 。 这 样 的 信息 对 于 
我 们 把 一 个 算法 调整 到 最 佳 性 能 有 很 大 帮助 。 例 如 ， 在 一 个 有 大 量 关 键 字 的 应 用 中 ， 正 确 地 
描述 内 存 的 需求 ， 可 能 会 涉及 到 要 注意 空间 开销 与 每 个 链表 的 关系 ,以 及 所 有 的 关键 字 最 终 
都 要 存 人 相同 的 “ 表 ” 中 〔 计 算 机 内 存 ) 等 问题 。 

根据 上 面 两 点 注意 事项 的 启发 ， 人 们 设计 出 了 许多 关于 基本 分 离 链 接 模式 的 变 体 。 其 中 
最 引 人 注 意 的 一 个 就 是 接合 散 列 法 ，Vitter 和 Chen[29] 给 出 了 这 个 方法 的 详细 分 析 (也 可 参见 
Knuth[22] )。 这 个 方法 在 实际 情况 中 ， 对 一 组 性 能 参数 值 的 分 析 进 行 应 用 是 一 个 极 好 例子 。 
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图 8-6 AETHER TNMM R 


习题 8.32 ”对 1000 个 关键 字 而 言 ， 当 NM 为 何 值 时 使 得 带 有 分 离 链接 的 散 列 比 二 又 查找 树 访 
问 的 关键 字 要 少 ? 对 1 000 000 个 关键 字 而 言 呢 ? 

习题 8.33 在 带 有 分 离 链接 的 散 列 中 ， 求 成 功 查找 所 需 的 比较 次 数 的 标准 差 。 

习题 8.34 当 获 列表 中 的 链表 有 序 时 〔 因 此 当 发 现 一 个 关键 字 大 于 要 查找 的 关键 字 时 ， 可 


441 
? 
443 





284 PS 


以 将 一 次 查找 截 短 )， 确 定 一 次 查找 的 比较 次 数 的 平均 值 和 标准 差 。 
习题 8.35 [Broder 和 Karlin] 分 析 程 序 8.1 的 下 列 变 体 : 计算 两 个 散 列 函数 ， 将 关键 字 存 入 
两 个 链表 中 较 短 的 链表 中 。 


8.6 开放 定 址 散 列 法 


在 分 离 链 接 散 列 法 中 ， 如 果 我 们 取 M = OCN)， 则 搜索 时 间 是 0(1)， 但 为 了 维护 二 级 数据 
结构 ， 要 使 用 大 量 指针 形式 的 额外 存储 空间 。 所 谓 的 开放 定 址 法 不 使 用 指针 ， 它 在 长 为 W 的 
表 内 直接 为 N (NCM) 个 关键 字 指定 地 址 。 
生日 悖 论 告诉 我 们 : 对 具有 相同 散 列 值 的 某 些 关键 字 而 言 ， 它 们 并 不 需要 一 个 太 大 的 表 ， 
因而 我 们 需要 一 个 冲突 解决 策略 来 决定 如 何 处 理 这 样 的 冲突 。 
线性 探测 法 。 也 许 最 简单 的 一 个 策略 就 是 线性 探测 法 : 当 把 一 个 关键 字 插 入 到 表 中 时 ， 如 
果 指 定 的 位 置 ( 由 散 列 值 给 定 ) 已 被 占用 ， 则 检查 前 一 个 位 置 。 如 果 前 一 个 位 置 仍然 已 被 占 
用 ， 则 检查 再 前 面 的 一 个 位 置 ， 如 此 继续 下 去 ， 直 到 找到 一 个 空 的 位 置 。( 如 果 到 达 了 表 的 起 
“4 始 位 置 ， 则 直接 循环 到 尾部 . ) 在 球 - 倪 模型 中 ， 我 们 可 以 把 线性 探测 想像 成 一 种 弹 球 盘 
445 (Pachinko) 机 : 当 一 个 倪 中 已 有 一 个 球 时 ， 一 个 新 球 就 会 向 左边 跳 ， 直 到 找到 一 个 空 公 为 止 。 
程序 8.2 给 出 了 关于 线性 探测 的 搜索 和 插入 的 一 个 实现 。 程 序 中 假定 散 列 函数 不 返回 零 值 ， 
所 以 零 可 用 来 标记 散 列表 中 的 空位 置 。 
程序 8.2 线性 探测 散 列 法 


. procedure insert(v: integer); 
var x: integer; 
begin 
x = hash(v); 
while table[x] <> 0 do x := (x-1) mod M; 
table[x] = v; 
end; 
function search(v: integer): integer; 
var x: integer; 
begin 
x = hash(v); 
while (table[x] <> 0) and (table[x] <> v) do 
x := (x-1) mod M; 
if t = z then t = NIL; 
search := t; 
end; 


我 们 将 在 下 边 看 到 : 线性 探测 对 一 个 几乎 已 满 的 表 来 说 性 能 很 不 好 ， 但 对 一 个 有 着 足够 
多 空位 置 的 表 来 说 性 能 却 相 当 不 错 。 随 着 表 越 填 越 满 ， 关 键 字 容易 “ 育 集 ”在 一 起 ， 从 而 产 
生 一 个 必须 要 进行 搜索 的 长 链 以 找到 一 个 空位 置 。 图 8-7 给 出 了 一 个 利用 线性 探测 填 满 表格 的 
例子 ， 其 中 最 后 两 次 插入 时 发 生 了 聚集 。 避 免 聚 集 的 一 个 简单 办 法 就 是 : 每 当 发 现 一 个 冲突 
时 ， 不 是 查看 前 一 个 位 置 ， 而 是 查看 前 :个 位 置 ， 其 中 * 是 由 第 二 个 散 列 函数 计算 出 来 的 值 。 这 
种 方法 叫做 双 散 列 (double hashing). 

均匀 散 列 。 因 为 链表 之 间 的 相互 依赖 性 ， 线 性 探测 和 双 散 列 都 很 难 进行 分 析 。 一 个 简单 
的 近似 模型 就 是 假定 长 为 M 的 表 中 入 个 关键 字 的 每 个 占有 配置 都 是 等 可 能 出 现 的 。 这 等 价 于 假 
定 一 个 散 列 函 数 产 生 一 个 随机 排列 ， 且 散 列表 中 的 每 个 位 置 是 按 随机 次 序 检查 的 (关键 字 不 

[446] 同 则 次 序 也 不 同 )， 直 到 找到 一 个 空位 置 为 止 。 


定理 8.7 (均匀 散 列 ) 对 NN 个 关键 字 使 用 长 为 M 的 表 ， 平 均 而 言 ， 利 用 均匀 散 列 时 ， 用 
于 成 功 查 找 和 不 成 功 的 探测 次 数 分 别 为 
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图 8-7 线性 探测 散 列 法 
证 明 从 散 列 位 置 开始 ， 如 果 k - 1 个 表 位 置 都 是 满 的， 而 第 k 个 位 置 是 空 的 ， 那 么 一 次 成 功 
的 查找 需要 k 次 探测 。/ 个 位 置 和 k — 1 个 关键 字 表 明 : 满足 这 种 情况 的 配置 数 和 把 其 余 V 一 上 + 1 
个 关键 字 分 布 到 其 余 M - k 个 位 置 的 方式 数 是 相同 的 。 因 此 ， 在 所 有 占有 配置 中 ， 不 成 功 查找 的 E7) 
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将 上 式 除 以 总 的 配置 数 (| ， 可 得 到 不 成 功 查找 的 平均 开销 。 
成 功 查找 的 平均 开销 可 以 像 定 理 8.6 中 的 证 明 那 样 ， 通 过 求 不 成 功 查 找 开 销 的 平均 值 而 
得 到 。 a 
因此 ,对 c = N/M, 成功 查找 的 平均 代价 渐 近 于 LIML - 0). MERLE, MRO, 我 
们 期 望 第 一 个 要 检查 的 单元 已 满 的 概率 为 4, 前 两 个 要 检查 的 单元 已 满 的 概率 为 以 , 依 此 类 推 ， 
所 以 ， 平 均 开销 应 该 渐 近 于 


l+a+a +a? + 


在 均匀 性 假定 下 ， 这 一 分 析 证 实 了 我 们 的 直觉 。 和 定理 8.6 中 的 证 明 一 样 ， 成 功 查找 的 平均 开 
销 可 以 通过 求 不 成 功 查找 平均 开销 的 平均 值 计算 出 来 。 
均匀 散 列 算法 是 不 实用 的 ， 因 为 对 每 个 关键 字 独 立地 生成 一 个 随机 排列 的 开销 太 大 ， 然 
而 ， 其 相应 的 模型 确实 为 其 他 冲突 解决 策略 提供 了 一 个 性 能 目标 。 双 散 列 就 是 逼近 这 样 的 一 
个 “随机 ”冲突 解决 策略 的 尝试 ， 且 实际 上 其 性 能 接近 于 上 面 给 出 的 关于 均匀 散 列 的 结果 ， 
不 过 导出 这 一 结果 曾经 是 多 年 以 来 一 件 非 常 困难 的 事情 ( 见 Guibas 和 Szemeredi[18] 以 及 
Lueker 和 Molodowitch[25] ) 。 
线性 探测 法 的 分 析 。 线 性 探测 法 是 一 个 基本 的 搜索 方法 ， 对 其 聚集 现象 给 出 一 个 分 析 性 
的 解释 显然 是 值得 关注 的 。Knuth 第 一 个 给 出 了 该 算法 的 分 析 ， 他 声称 这 个 算法 的 推导 对 他 著 
作 的 构架 方法 有 着 重要 的 影响 。 他 的 著作 在 算法 的 数学 分 析 中 无 疑 对 研究 手段 的 建构 方法 有 
着 重大 影响 。 此 算法 的 推导 是 一 个 原型 范例 ， 它 表明 一 个 简单 的 算法 是 如 何 导致 有 趣 而 又 不 
平 几 的 数学 问题 的 。 
遵循 Knuth 的 方法 ， 我 们 定义 三 个 量 来 对 成 功 查找 的 累积 开销 产生 一 个 准确 的 表达 式 : 
Suu = {0 位 为 空 的 字数 }， 
Sue = {0 位 和 k + 1 位 为 空 ， 1 到 k 位 为 满 的 字数 }， 
Pnw= {插入 第 (N + 了) 个 关键 字 需 要 j + 1 步 的 字数 }。 
和 以 往 一 样 ， 上 面 出 现 的 字 指 的 是 “ 散 列 值 的 序列 。” 
第 一 ， 通 过 注意 位 置 0 为 空 与 任意 其 他 表 位 置 为 空 是 等 可 能 的 ， 我 们 可 以 得 到 关于 fww 的 
一 个 显 式 表 达 式 。 这 M* 个 散 列 序列 中 的 每 一 个 都 留 下 M - N 个 空 的 表 位 置 ， 其 总 数 为 (M - 
N)M”， 除 以 MM 后 得 
Suu =(M- NM™! 


第 二 ， 我 们 可 以 利用 这 个 结果 得 到 关于 8ww 的 一 个 显 式 表 达 式 。 空 位 置 把 每 个 要 计 人 总 数 的 散 
列 序列 分 成 了 独立 的 两 个 部 分 : 一 部 分 是 含有 k 个 元 素 的 序列 ， 它 把 k 个 元素 散 列 到 位 置 0 到 
中 ， 且 留 下 0 位 置 为 空 ， 另 一 部 分 是 含有 N 一 个 元 素 的 序列 ， 它 把 N 一 个 元 素 散 列 到 位 置 k + 
1 到 M - 1， 且 留 下 K+ 1 位 置 为 空 。 因 此 
N 
Sumi = ( kfc fin oem 
= (je +DeICMN-N-DON- 天 -De 


第 三 ， 只 要 散 列 位 置 在 5 个 连续 非 空 单元 所 组 成 的 块 (这 个 块 的 两 端 均 由 空 单 元 定 界 ) 的 第 k 





个 位 置 上 时 ， 则 对 于 第 (N + 1) 个 关键 字 的 插入 ， 一 个 字 将 涉及 j + 1 isk). WAER 
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现在 ， 就 像 前 面 一 样 ， 我 们 可 以 利用 累积 数 Pww 来 计算 平均 查找 的 开销 。 因 为 关于 不 成 功 
查找 的 累积 开销 是 
Dt DP = BID | gua = Y 8m YU 


1 
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1 
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因此 ， 线 性 探测 中 不 成 功 查找 的 平均 开销 是 
5 (Stn + Sih) 


其 中 
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这 个 相当 吓人 的 函数 实际 上 用 阿 贝尔 恒等式 很 容易 计算 (3.11 节 中 习题 3.66)。 由 此 立即 得 出 
下 面 的 结果 


N 
tSr =1- 


对 较 大 的 i， 容 易 证 明 (通过 消去 (+ 0 的 一 个 因子 ) 


{il [i] {i-1] 
Swat = M Sow_-Dwd+D 十 tS nui 


因此 ， 
N N 
Sn = T Somo +1- M 
其 解 为 
Sn =1 
这 个 结果 正 是 我 们 所 期 望 的 ， 因 为 ， 比 如 说 ， Swin = > Pam 就 是 概率 的 和 。 最 后 ， 当 i = 2 
有 时， 我 们 有 
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定理 8.8 (线性 探测 散 列 法 ) 对 NN 个 关键 字 使 用 大 小 为 用 的 表 ， 平 均 而 言 ， 线 性 探测 关 
于 成 功 查找 的 探测 次 数 为 
11 (N-1)! _1 
2 2,f4,M(N-i-)! 2\ l-a 


关于 不 成 功 查找 的 探测 次 数 为 








1,1 M _l 1 (1)\ 
272,44, MiN-d! 1+ +n) 
其 渐 近 形式 对 a = NM 及 w<1 都 成 立 。 
证 明 见 上 面 的 讨论 。 和 前 面 一 样 ， 关 于 成 功 查找 的 表达 式 可 以 通过 对 不 成 功 查 找 的 结果 
求 平均 值 而 得 到 。 
如 果 a 严 格 小 于 1 的 话 ， 则 和 式 类 似 于 定理 4.8 中 的 Ramanujan Q- 函数， 且 这 个 和 式 由 拉 普 
拉 斯 方法 不 难 估计 。 我 们 有 
(NY N! 
,Bi D! Seyi M) NON-DI 
将 此 和 式 分 成 两 部 分 ， 我 们 可 以 利用 访 和 式 中 的 项 当 i> VN 时 开始 变 得 小 到 可 以 忽略 的 事实 ， 
证 明 该 和 式 为 
(NY! (5 ye solt) 
Am) U OIN) Ta ON) 

对 上 述 式 子 加 1 再 除 以 2， 即 可 得 到 关于 成 功 查 找 的 所 述 结果 ， 用 类 似 的 计算 将 得 到 关于 不 成 
功 查找 的 所 述 估计 式 。 a 
推论 在 对 一 个 满 表 的 一 次 成 功 的 查找 过 程 中 ， 线 性 探测 所 检查 的 表 中 元 素 的 平均 个 

数 ~ VaxN/2。 
证 明 ”在 上 述 表 达 式 中 取 M = N 恰 好 得 到 Ramanujan Q- 函数 ， 其 近似 值 已 在 定理 4. 8 中 被 
证 明 。 | 
尽管 解 的 形式 比较 简单 ， 但 是 利用 生成 函数 和 符号 法 对 线性 探测 平均 开销 进行 推导 的 方 
法 还 没有 找到 。 分 析 中 出 现 的 各 种 量 之 间 有 着 许多 有 趣 的 性 质 。 例 如 ， 如 果 我 们 用 z RA 
定理 8.8 中 关于 成 功 查找 的 表达 式 ， 再 除 以 (V - D1， 然 后 对 所 有 的 N>0 求 和 ， 将 得 到 一 个 相当 
简洁 的 显 式 结果 
(c+) 
Ife, ee 
2 1-z/M 


这 个 结果 对 于 线性 探测 并 没有 什么 直接 的 意义 ， 因 为 所 定义 的 量 都 只 在 N< M 时 有 意义 ， 但 在 


组 合 解释 意义 上 ， 此 结果 可 能 会 是 一 个 不 错 的 选择 。 


表 8-8 总 结 了 我 们 已 讨论 过 的 散 列 方 法 的 渐 近 性 能 。 该 表 包 含 了 随 着 表 长 M 和 关键 字 个 数 
N 增 加 时 ， 以 装填 因子 ac = N/M 的 一 个 函数 形式 所 表示 的 渐 近 开销 ; 一 个 对 较 小 的 a 进行 开销 
估计 的 开销 函数 的 展开 式 ; 关于 a 取 特 定 值 时 函数 的 近似 值 等 。 该 表 还 说 明 对 于 较 小 的 a， 所 
有 方法 的 性 能 大 体 上 是 相同 的 ; 当 表 满 的 程度 达到 80%~90% 时 ， 线 性 探测 的 性 能 开始 下 降 到 
难以 令 人 接受 的 程度 ; 除非 表 很 满 ， 否 则 双 散 列 的 性 能 相当 接近 于 “ 景 佳 ”的 性 能 (与 分 高 
链表 法 相同 )。 这 些 结果 以 及 相关 结果 在 实际 情况 下 散 列 的 应 用 中 都 是 非常 有 用 的 。 
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习题 8.36 在 平均 搜索 的 开销 超过 之 InN 前 ， 一 个 长 为 M 的 线性 探测 表 中 能 插入 多 少 个 关键 字 ? 
习题 8.37 对 一 个 满 表 使 用 线性 探测 法 时 ， 计 算 一 次 不 成 功 查找 的 准确 开销 。 
习题 8.38 对 不 成 功 查 找 开 销 的 EGF 给 出 一 个 显 式 表 式 法 。 l 


习题 8.39 使 用 符号 法 导出 在 一 次 成 功 的 查找 中 ， 对 固定 的 M， 线 性 探测 所 需要 的 探测 次 
He HEGF, © 


大 小 为 M 的 表 中 关于 N 个 关键 字 的 准确 开销 。 
表 8-8 关于 散 列 法 的 分 析 结果 








成 功 查找 不 成 功 查找 
N N 
分 离 链 接 法 lt 1+3 
M+1 M+1 
均匀 散 列 法 MONG N (Hui Huna) 





当 N, M>, a = NM 时 的 渐 近 开销 





平均 0509095 , 小 a 
不 成 功 查 找 
分 离 链接 法 l+a 222 l+a 
均匀 散 列 法 一 2 1020 lata? + 
-a 0 
双 散 列 法 oo 2 1020 ltata? + 
-a 
线性 探测 法 rera 3 51 201 E 
2\ d-a) 2 
成 功 查 找 
分 离 链接 法 1+3 111 1% 
均匀 散 列 法 Finll+a) 134 ree 
双 散 列 法 sind +a) 134 pg gee 
a . : 2 3 
thi aw 
线性 探测 法 alta) 2611 1+7+ 5 + 
8.7 BRAT 


散 列 到 满 表 的 研究 将 自然 导致 考查 把 一 个 1 到 N 的 整数 集合 映射 到 它 自 身 的 映射 性 质 。 对 
这 些 性 质 的 研究 又 将 导致 一 个 定义 简洁 且 重 要 的 组 合 结构 ， 然 而 这 个 结构 却 包含 了 本 书 我 们 
所 研究 过 的 大 部 分 内 容 。 | 
定义 一 个 N- 映 射 是 一 个 函数 /， 它 把 区 间 [1...N] 中 的 整数 映射 到 区 间 [1...NN] 中 。 
和 字 、 排 列 及 树 一 样 ， 我 们 还 是 通过 写 出 映射 的 功能 表 来 指定 一 个 映射 : 
下 标 1 2 3 4 5 6 7 8 9 
映射 9 6 4 2 4 3 7 8 6 


日 ”我 们 不 知道 这 道 题 目的 答案 ! 
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和 以 往 一 样 ， 我 们 去 掉 下 标 ， 并 把 一 个 映射 简单 地 规定 为 区 间 1 到 N 中 入 个 整数 的 序列 (映射 
的 像 )。 显 然 ， 存 在 入" 个 不 同 的 N- 映 射 。 我 们 对 排列 (第 6 章 ) 和 树 (第 5 章 ) 曾 使 用 过 类 似 的 
表示 方法 一 一 排列 和 树 可 以 被 认为 是 映射 的 两 个 特例 。 例 如 ， 排 列 是 一 个 映射 ， 只 不 过 像 中 
的 整数 都 是 不 同 的 。 

自然 地 ， 我 们 可 以 定义 一 个 随机 映射 ， 它 是 由 1 到 和 N 之 间 变 化 的 N 个 随机 整数 所 构成 的 序 
列 。 我 们 将 要 关注 对 随机 映射 性 质 的 研究 。 例 如 ， 一 个 随机 映射 是 一 个 排列 的 概率 为 NW/N*~ 
V2nN /e” 。 

像 的 基数 。 映 射 的 某 些 性 质 可 以 从 上 一 节 得 出 的 字 的 性 质 中 推导 出 来 。 例 如 ， 由 定理 8.5 我 
们 知道 ， 映 射 中 出 现 k 次 的 整数 的 平均 个 数 为 ~Ne k, Eka = 1 时 的 泊 松 分 布 。 我 们 关心 的 一 
个 相关 问题 是 所 出 现 的 不 同 整数 的 个 数 的 分 布 ， 即 像 的 基数 。 它 等 于 和 N 减 去 不 出 现 的 整数 的 个 
数 ， 或 等 于 一 个 占有 模型 中 “ 空 侈 ”的 个 数 ， 所 以 根据 定理 8.5 的 推论 ， 这 个 数 的 平均 值 是 (1 - 


N 
WON。 通 过 一 个 简单 的 计数 论证 可 以 确定 ， 像 中 有 k 个 不 同 整 数 的 映射 个 数 是 (Ca 
选取 ) 乘 以 el (基数 为 k 的 像 对 应 的 所 有 满 射 数 )。 因 此 ， 


C. ak! NN 
a WIN 
图 8-8 给 出 了 这 个 分 布 的 曲线 图 。 


0.667 


0.222 


0.111 





0 (0.63212...)N N 


图 8-8 3 <N< 50 时 随机 映射 的 像 基数 (k 轴 按 N 的 比例 标 度 ) 


习题 8.40 求 像 的 基数 分 布 的 指数 BGF。 

习题 8.41 利用 组 合 论 证 的 方法 ， 求 像 的 基数 分 布 的 指数 BGF。 

习题 8.42 给 出 一 个 大 小 为 N， 且 像 中 具有 k 个 不 同 整数 的 映射 的 个 数 的 递 推 关系 ， ,并 利 
用 此 关系 求 得 一 个 关于 N<20 时 的 值 的 表 。 

习题 8.43 ”给 出 一 个 大 小 为 W， 且 具有 K 个 不 同 字母 的 M- 字 的 个 数 的 显 式 表 达 式 。 

随机 数 发 生 器 。 一 个 随机 N- 映 射 是 任何 一 个 绰 以 1 到 N 的 整数 为 定义 域 和 值 域 的 函数 /， 其 
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HB NYS i PED PS SH ERB). PN, TARRA ARSO) = 1 + Pmod9 所 定义 : 

下 标 1 2 3 4 5 6 7 8 9 

me 2 5 1 8 8 1 5 #2 1 
这 种 函数 的 一 个 应 用 就 是 用 来 模拟 随机 数 发 生 器 ， 也 即 这 样 的 程序 : 它 产 生 其 性 质 尽 可 能 类 
似 于 随机 序列 性 质 的 数 的 序列 。 其 想法 是 选择 一 个 函数 ， 读 函数 是 一 个 N- 上 映射， 然后 通过 从 
一 个 叫做 种 子 的 初始 值 开 始 ， 和 迭代 Fo 以 产生 一 个 〈 擅 ) 随机 序列 。 给 定 一 个 种 子 wn， 我 们 得 
到 序列 


A 
wr 
wn 


Ug 

u = f(u) 

u, = f(u,) = f(f(u)) 

u = f(u) = f(f(f(u0))) 


例如 ， 线 性 同 余 随机 数 发 生 器 基于 函数 
F(x) =(ax+b)modN 


三 次 随机 数 发 生 器 基于 函数 
f(x) = (ax? + bx +c)modN 


二 次 随机 数 发 生 器 与 平方 取 中 法 有 着 紧密 的 联系 ， 这 个 古老 的 想法 要 追 衫 到 冯 诺 依 曼 
时 代 : 从 一 个 种 子 m 开 始 ， 反 复 对 前 面 生成 的 值 进行 平方 ， 然 后 再 抽取 中 间 几 位 。 例 如 ， 使 
用 四 位 十 进 制 数 ， 从 种 子 u = 1234 开 始 生成 的 序列 是 w= 5227 (因为 1234? = 01522756), u = 
3215 (因为 5227? = 27321529), u, = 3362 (因为 3215? = 10336225 ) ， 依 此 类 推 。 

我 们 很 容易 设计 一 个 线性 同 余 随 机 数 发 生 器 来 产生 一 个 排列 〈 即 : 它 产生 N 个 不 同 的 值 
之 后 再 重复 )。 读 者 可 参考 Knuth[21]， 那 里 有 一 套 完 整 的 代数 理论 。 

二 次 随机 数 发 生 器 从 数学 上 来 讲 比较 难以 分 析 。 但 Bach[2] 已 经 证 明 : 平均 而 言 ， 和 迭代 中 
的 二 次 函数 所 具有 的 性 质 基本 上 与 随机 映射 的 性 质 相同 。Bach 使 用 了 代数 几何 学 中 的 深奥 结 
果 ; 正如 我 们 将 要 看 到 的 ， 就 目前 为 止 ， 在 本 书 已 给 出 的 所 有 技巧 的 前 提 下 ， 随 机 映射 的 性 
质 相对 而 计 还 是 较为 容易 分 析 一 些 的。 在 我 们 所 关注 的 量 的 平均 值 浙 近 相等 的 意义 下 ， 模 数 N [456 
的 二 次 三 项 式 有 NM 个 ， 且 我 们 断定 它们 代表 和 N* 个 随机 映射 。 这 种 情况 有 些 类 似 于 前 面 我 们 所 
描述 过 的 双 散 列 的 情况 在 这 两 个 例子 中 ， 实 际 方法 〈 二 次 发 生 器 、 双 散 列 ) 都 要 通过 与 随 
机 模型 的 渐 近 等 价 关 系 来 研究 (随机 上 映射、 均匀 散 列 )。 

换 句 话说 ， 二 次 发 生 器 为 所 谓 的 随机 数 发 生 器 的 研究 提供 了 一 种 动机 ， 因 为 随机 选择 一 
个 函数 并 对 其 进行 迭代 就 是 产生 随机 数 的 源泉 。 事 实 上 ， 分 析 的 结果 却 是 否定 的 ， 因 为 分 析 
结果 表明 线性 同 余 生成 器 可 能 要 比 二 次 生成 器 更 好 一 些 〈 因 为 它们 有 较 长 的 圈 ) ， 而 这 些 想法 
的 一 个 有 趣 结果 则 是 关于 整数 的 因子 分 解 的 Pollard rho 方法 的 设计 与 分 析 ， 我 们 将 在 本 节 末 讨 
论 这 个 问题 。 | 

习题 8.44 证 明 : 每 个 随机 映射 都 必须 至 少 有 一 个 图 。 

习题 8.45 XN = 100、1000、10 000 以 及 在 这 些 信 附近 的 质数 ， 考 查 由 /Ci 站 = 1+ + 
1)modN 所 定义 的 随机 映射 的 性 质 。 

路 径 长 与 连通 分 量 。 因 为 把 映射 应 用 于 它 自 身 的 操作 是 有 定义 的 ， 这 就 使 我 们 想到 ， 如 
果 我 们 相继 把 映射 作用 于 自身 会 发 生 什 么 情况 。 在 一 个 映射 中 ， 对 每 个 上 ， 序 列 
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都 是 有 确切 定义 的 : 该 序列 有 什么 性 质 呢 ? 我 们 很 容易 就 能 发 现 : 由 于 只 有 N 个 不 同 的 值 ， 所 
以 该 序列 最 终 必 定 要 重复 一 个 值 ， 并 在 这 个 值 处 变 成 一 个 圈 。 例 如 ， 如 图 8-9 所 示 ， 在 由 Jo = 
(x? + Dmod99 所 定义 的 映射 中 ， 从 x = 3 处 开始 ， 我 们 最 终 将 得 到 一 个 循环 序列 3, 10, 2, 5, 26, 
83, 59, 17, 92, 50, 26, …。 这 样 的 序列 总 是 要 有 一 个 图 的 ， 且 图 的 前 面 有 一 个 由 某 些 值 所 构成 
的 “尾巴 "。 在 这 个 例子 中 ， 圈 的 长 为 6， 尾 部 的 长 为 4。 了 解 随机 映射 中 圈 长 和 尾 长 的 统计 
性 质 ， 是 我 们 将 要 关注 的 事情 。 


oo rN 
-i i 


图 8-9 Mo = 3 处 开始 迭代 Fo = @? + Dmod99 时 的 尾部 和 图 
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图 8-10 3 个 随机 映射 的 树 - 圈 表示 法 

圈 长 和 尾 长 取决 于 起 始点 。 图 8-10 给 出 了 一 种 图 形 表示 ， 它 对 三 个 样本 映射 中 的 每 一 个 i 
457) 给 出 了 ;连接 到 /GD 的 图 示 。 例 如 ， 在 图 中 顶部 的 那个 映射 中 ， 如 果 我 们 从 7 开始 ， 我 们 马上 就 
458} 陷入 了 圈 7，8，7，… 中 ,但 如 果 我 们 从 1 开始 ， 我 们 就 会 遇 到 一 个 两 -元 素 的 尾巴 ， 接 着 是 
一 个 四 -元 素 的 圈 。 这 种 表示 法 更 清楚 地 揭示 了 映射 的 结构 : 每 一 个 映射 都 能 分 解 成 一 组 连通 
的 成 分 ， 也 叫 连 通 映射 (connected maps)。 每 个 组 成 部 分 都 由 一 组 环绕 着 同一 个 圈 的 所 有 点 
所 构成 ， 且 圈 上 的 每 个 点 都 附属 于 从 那个 点 进入 圈 的 所 有 点 所 构成 的 一 棵 树 。 从 每 一 个 单个 

点 的 观点 来 看 ， 我 们 有 一 个 如 图 8-9 中 那样 的 尾 - 圈 ， 但 整个 结构 无 疑 更 能 表达 映射 的 信息 。 
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正如 前 面 我 们 所 关注 过 的 ， 映 射 是 排列 的 推广 ， 在 排列 中 我 们 限定 在 一 个 变化 范围 内 的 
每 个 元 素 必须 出 现 一 次 ， 这 就 导致 了 一 组 圈 。 在 对 应 于 排列 的 映射 中 ， 所 有 尾部 的 长 都 是 0。 
如 果 一 个 映射 中 所 有 的 圈 长 都 为 1， 那 么 该 映射 就 是 对 应 于 森林 的 映射 。 这 就 自然 导致 我 们 考 
虑 路 径 长 的 想法 : 

定义 映射 f 中 关于 下 标 k 的 路 径 长 或 p 长 是 由 近代 

Ff) FF®), FF FED), FFF!) E 

所 得 到 的 不 同 整 数 的 个 数 。 映 射 f 中 关于 下 标 K 的 国 长 是 近代 达到 的 国 的 长 ， 映 射 f 中 

关于 下 标 k 的 尾 长 是 p 长 减 去 图 长 ， 或 等 价 地 说 ， 是 连接 到 图 时 所 需 的 步 数 。 

一 个 下 标的 路 径 长 叫做 “p 长 "， 这 是 由 于 尾部 加 上 图 的 形状 使 人 联想 到 希腊 字母 p (ME 
8-9)。 映 射 除了 具有 这 些 我 们 从 个 别 的 点 所 看 到 的 性 质 外 ， 我 们 也 将 关注 映射 中 涉及 所 有 点 
的 总 体 度量 。 

定义 ”映射 /的 p 长 是 f 中 关于 所 有 k 的 p 长 之 和 。 映 射 /的 树 路 径 长 是 f 中 关于 所 有 k 的 

尾 长 之 和 。 

因此 ， 由 图 8-10， 很 容易 检验 9 6 4 2 4 3 8 7 6 的 p 长 度 是 36， 树 路 径 长 为 4; 3 2 
3 9 4 9 9 4 4 的 p 长 是 20， 树 路 径 长 为 5;; 1 3 1 3 3 6 4 7 7 的 p 长 是 27， 树 路 径 长 
为 18。 在 这 些 定义 中 ， 树 路 径 长 不 包括 图 上 任何 结 点 的 开销 ， 而 p 长 却 包括 结构 中 关于 每 个 结 
点 的 整个 圈 长 。 两 个 定义 都 给 出 了 那些 是 树 的 映射 的 路 径 长 的 标准 概念 。 

表 8-9 3 个 元 保 的 所 有 了 映射 的 基本 性 质 
pk 最 长 图 最 长 路 径 
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( 续 ) 
映射 图 树 pk RKE 最 长 路 径 
211 1 1 7 2 3 
212 1 1 7 2 3 {}— 
232 1 1 7 2 3 
311 1 1 7 2 3 
331 1 1 7 2 3 
332 1 1 7 2 3 
231 1 0 9 3 3 () 
312 1 0 9 3 3 
我 们 很 想 知道 图 8-10 中 所 示 的 几 种 结构 的 一 些 基本 性 质 : 
。 存 在 多 少 个 圈 ? 
。 轿 上 有 多 少 个 点 ， 树 中 有 多 少 个 点 ? 
。 平 均 圈 长 是 多 少 ? 
。 平 均 p 长 是 多 少 ? 
。 最 长 圈 的 平均 长 是 多 少 ? 
。 通 向 一 个 圈 的 最 长 路 径 的 平均 长 是 多 少 ? 
。 最 长 p 路 径 的 平均 长 是 多 少 ? 


表 8-9 对 所 有 的 3- 映 射 给 出 了 上 述 基本 数据 一 个 详尽 的 列表 ， 而 表 8-10 给 出 了 6 个 随机 9- 
映射 。 我 们 在 表 8-9 的 右 端 画 出 了 出 现在 3 映射 中 7 个 不 同 的 树 - 圈 结构 ， 它 提醒 我 们 映射 的 
树 - 圈 表示 法 是 有 标号 、 有 序 的 组 合 对 象 。 

和 我 们 在 本 章 已 经 见 过 的 其 他 几 个 问题 一 样 ， 随 机 映射 的 某 些 性 质 可 以 用 一 种 直接 的 概率 
论证 方法 来 进行 分 析 。 例 如 ， 一 个 随机 映射 的 平均 p 长 度 就 能 很 容易 地 利用 这 种 方法 推导 出 来 。 


表 8-10 一 些 随 机 9- 映 射 的 基本 性 质 


we 射 占 有 分 布 a 树 po 长 度 最 长 图 最 长 路 径 
323949944 012300003 5112 3 3 19 2 3 
131336477 203101200 4221 2 1 27 1 5 
517595744 100230201 4221 2 4 29 3 5 
215681472 220111110 2520 1 2 42 2 8 
213693481 212101011 2520 3 2 20 2 4 
964243786 011212111 1620 2 1 34 4 6 


定理 8.9 (pK) 平均 而 言 ， 随 机 映射 中 一 个 随机 点 的 p 长 是 ~ VTN/12 ， 一 个 随机 映射 
pk ~N\aN72 。 


证 明 ERM FR. TARS o) # 的 概率 是 (N - D/N， 0 长 大 于 等 于 1 的 概率 也 是 这 
个 值 。 类 似 地 ，p 长 大 于 等 于 2 的 概率 等 于 头 两 个 元 素 不 同 《f (xo) # >) 县 第 三 个 元 素 与 头 两 
个 元 素 也 都 不 同 (SAE) # oS So) fE) 的 概率 ， 或 等 于 (N - D/N 乘 以 (N - DN。 
依 此 类 推 ， 我们 有 

N-1N-2 N-k 


Pe > ON ON 
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因此 ， 随 机 映射 中 一 个 随机 点 的 平均 p 长 是 这 些 累 积 概率 之 和 ， 它 恰好 是 Ramanujan Q- wR, 
所 以 定理 4.8 的 近似 式 给 出 了 它 的 答案 。 映 射 中 N 个 点 中 的 每 一 个 点 都 满足 同样 的 论证 方法 ， 
因此 ， 了 映射 的 期 望 p 长 度 可 以 通过 乘 以 N 来 得 到 。 a 
这 个 问题 等 价 于 8.3 节 中 的 生日 问题 ， 尽 管 它们 的 随机 模型 在 形式 上 并 不 相同 。 
习题 8.46 证 明 : 对 随机 了 映射 中 一 个 随机 点 的 p 长 度 的 分 析 等 价 和 于 对 生日 问题 的 分 析 。 
生成 函数 。 映 射 的 许多 其 他 性 质 更 依赖 于 总 体 结构 的 相互 作用 。 这 些 性 质 可 以 通过 生成 函数 
得 到 很 好 的 分 析 。 映 射 是 树 的 圈 的 集合 ， 所 以 它们 的 生成 函数 很 容易 用 符号 法 推导 出 来 。 我 们 可 
用 与 第 3 章 所 介绍 过 的 符号 法 完全 一 样 的 方法 来 统计 “图 的 集合 ”"， 只 不 过 要 以 树 作为 基本 对 象 。 
根据 第 5 章 ， 我 们 从 关于 Cayley 树 的 EGF: 
C(z) = ze 
开始 。 和 第 3 章 一 样 ， 对 树 GEOR) 的 圈 计 数 的 EGFE 为 


C(z)* in 1 
k 1-C(z) 








且 对 连通 映射 的 集合 计数 的 EGF 为 


exp(1 l 


a -_ 1 
1-C(z)) 1-CQ) 


表 8-11 关于 映射 的 指数 生成 函数 





类 EGF 系数 
Bt Ciz) = ze (N -u Je" = NA- 
1 
be tal BTO (N= Du el ~N“ IJAN 
1 od 
映射 exon (N- D'u” irer e™ = NY 


上 面 的 函数 方程 包含 了 隐 含 定义 的 Cayley 函 数 C(z) ,而且 拉 格 庚 日 反 演 定理 可 以 直接 应 用 。 
例如 ， 对 刚才 导出 的 BGF 应 用 该 定理 将 导致 下 面 的 计算 : 


1 lpm 
Lco Ne | 


k-\ Nt NE 
= > (V- 有 二 - =- 之 | 
0< KN k! OEN k! i< Lw(k-D! 


Nu 
(l-u) 


[2%] 








这 就 验证 了 长 为 N 的 映射 共有 "个 这 一 事实 。 
为 方便 起 见 ， 我 们 把 涉及 将 拉 格 朗 日 反 演 定理 应 用 到 Cayley 函 数 的 计算 归纳 如 下 : 


引 理 对 于 Cayley 函 数 CD)， 当 8(D = Daz 时 ， 我 们 有 
k>0 


k-1 


N 
NJ]g(C(z)) = N-b8y4—— 
[z* ICE) DX Bt T 


证 明 由 定理 3.9 可 立即 得 证 。 E 





因此 ，N 个 结 点 的 连通 映射 的 个 数 是 


NI!{z* Yin ; 





-NM Şow- NN" 
Tam BN Ne TN OM) 


这 里 又 一 次 出 现 了 Ramanujan Q- AR. 
上 述 结果 意味 着 ， 一 个 随机 映射 是 树 的 概率 恰好 为 UNW， 且 一 个 随机 映射 是 一 个 单 连 通 分 
量 的 概率 渐 近 于 /RAZN) 。 我 们 可 以 用 类 似 的 方式 ， 利 用 BGF 来 分 析 随机 映射 的 其 他 性 质 。 
定理 8.10 (94M) ”一 个 随机 N- 映 射 平均 有 -inN 个 分 量 和 ~ VN 个 图 上 的 
结 点 。 
证 明 根据 上 面 的 讨论 ， 关 于 分 量 个 数 分 布 的 BGE 为 
an) -1 
1-C0)) A-C" 


于 是 ， 由 上 面 给 出 的 引 理 ， 得 平均 分 量 数 为 


exp 人 In 


1 


1 
ZX ——_—_———— 
di acor 一 ye" CO co! Ico 
Net 
= (N- k) Ay. 


k 
0 SN K 
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关于 圈 上 结 点 个 数 的 BGF 为 





ic -_ 1 
1-uC(z)) 1-uC(z) 


从 这 个 式 子 中 提取 的 系数 恰好 就 是 上 述 结 果 。 a 

其 他 性 质 。 各 种 其 他 性 质 可 以 用 类 似 的 方法 来 处 理 。 并 且 ， 利 用 与 第 6 章 中 关于 排列 以 及 
本 章 前 面 关于 字 的 同样 的 处 理 方法 ， 我 们 可 求 得 恰好 有 Kk 个 分 量 的 映射 数 的 EGF 为 C(z)/k!; 最 
多 有 k 个 分 量 的 映射 数 的 EGF 为 1 + C(z) + C(z)/2! + …+ CRIS 等 等 。 这 些 结果 可 用 来 得 出 关 
于 极 值 参 数 的 显 式 表达 式 ， 就 像 我 们 以 前 曾 多 次 做 过 的 那样 。 估 计 这 些 量 的 渐 近 方法 在 Flajolet 
和 Odlyzkof11] 以 及 Kolchin[23] 中 都 有 详细 的 讨论 (也 可 参见 [12])。 表 8-12 总 结 了 [11] 中 所 给 出 
的 结果 。 极 值 参数 中 的 各 种 常量 都 可 以 显 式 地 表示 出 来 ， 不 过 这 需要 进行 相当 复杂 的 定 积分 。 
有 趣 的 是 我 们 注意 到 : 对 于 平均 值 而 言 ， 圈 长 加 上 尾 长 等 于 p 长 ， 但 对 极 值 参 数 而 言 ， 上 述 结 
论 并 不 成 立 。 这 意味 着 对 大 量 的 映射 来 说 ， 最 高 的 树 并 不 附属 于 最 长 的 圈 。 


表 8-12 随机 映射 的 渐 近 性 质 


exp( In 





随机 点 的 平均 值 

p 长 nN/2 
BK - nN /8 
留 长 TN /8 
树 大 小 N/3 





FRR 


(28) 
平均 数 . 
k-th Ne 
k! 

k- 1 

k 
k-DE a -= node connected maps) 
k- ANDE k - node trees) 
极 值 参 数 ( 结 点 期 望 数 ) 
最 长 尾 ArNlin2=1.74VN 
最 长 图 ~0.78VN 
最 长 -路径 ~241VN 
最 大 树 一 048N 
最 大 分 量 = 0.76N 


习题 8.47 ”哪些 N- 映射 具有 最 大 和 最 小 的 p 长 ? 树 路 径 长 呢 ? 

习题 8.48 ” 写 一 个 程序 ， 求 出 随机 映射 的 p 长 和 树 路 径 长 。 对 尽 可 能 大 的 N， 生 成 1000 个 
随机 映射 ， 并 计算 平均 图 长 、p 长 和 树 路 径 长 。 

习题 8.49 写 一 个 程序 ， 不 能 利用 任何 额外 存储 空间 ， 求 一 个 随机 映射 的 p 长 和 树 路 
Bk. 

习题 8.50 ”一 个 没有 重复 整数 的 映射 是 一 个 排列 。 给 出 一 个 有 效 的 算法 ， 确 定 一 个 映射 
是 否 是 树 。 

习题 8.51 对 所 有 的 N<10， 计 算 一 个 随机 N- 映 射 中 最 大 分 量 的 平均 大 小 。 

习题 8.52 用 BGF 证 明定 理 8.9。 

习题 8.53 ” 当 一 个 随机 映射 迭代 两 次 时 ， 像 中 不 间 整 数 的 平均 个 数 是 多 少 ? 

习题 8.54 ”考虑 对 应 于 所 有 N- 映射 的 N% 个 树 - 转 结构 。 当 N<7， 且 把 这 些 结构 看 成 是 无 





标号 、 无 顺序 的 对 象 时 ， 这 些 结构 中 有 多 少 个 是 不 同 的 ?9 《它们 名 做 随机 映射 模式 (random 


mapping patterns ) 。) 

习题 8.55 BARRA (partial map) 的 图 形 结构 ， 其 中 一 个 点 的 像 可 能 无 定义 。 建 立 相 
应 的 EGF 方 程 ， 并 验证 长 为 N 的 偏 映射 的 个 数 是 (N + D”. | 

习题 8.56 ”分 析 1 到 N 范 围 内 的 2N 个 随机 整数 的 序列 中 的 “路 径 长 "。 

习题 8.57 ”生成 100 个 大 小 为 10、100 和 1000 的 随机 映射 ， 并 通过 观察 检验 表 8-12 中 所 给 
出 的 统计 量 。 


8.8 整数 因子 分 解 与 映射 


本 节 我 们 将 考查 Pollard p 法， 这 是 一 个 有 效 的 分 解 整数 的 算法 (在 10 到 30 个 十 进 制 位 的 
“中 等 ”范围 内 )， 这 种 方法 要 依赖 映射 的 结构 和 概率 性 质 ， 并 基于 对 如 下 两 个 事实 的 应 用 。 

。 某 个 圈 上 的 点 可 以 很 快 被 找到 (所 用 时 间 与 一 个 起 始点 的 p 长 成 正比 )， 所 使 用 的 内 存 

为 0(1)。 

。 随 机 映射 上 一 个 随机 点 的 平均 p 长 为 OWN) 。 
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首先 ， 我 们 考虑 圈 的 检测 问题 ， 然 后 我 们 再 考虑 Pollard p 法 本 身 。 
圈 检 测 。 要 找 出 映射 的 一 个 较 上 的 一 点 ， 一 个 杜 素 的 方法 就 是 对 映射 进行 和 迭代， 存储 查 
找 结 构 中 所 有 的 函数 值 ， 观 察 每 个 新 的 值 是 不 是 结构 中 已 经 存在 的 某 个 值 。 该 算法 对 大 的 映 
射 并 不 实用 ， 因 为 我 们 无 法 担负 存储 所 有 函数 值 的 空间 开销 。 
程序 8.3 给 出 了 一 个 在 任意 映射 中 求 圈 上 的 点 的 方法 ， 该 方法 只 利用 了 常数 空间 而 且 不 斩 
牲 执行 时 间 ， 它 是 由 Floyd (参见 Knuth[21]) 给 出 的 。 在 这 个 程序 中 ， 我 们 可 以 把 点 a 看 成 正 
在 以 速度 1 沿 着 p -图 运动 ( 见 图 8-9)， 把 点 b 看 成 正在 以 速度 2 沿 着 p 一 图 运动 。 该 算法 依赖 于 
这 样 的 事实 : 一 旦 这 两 个 点 都 在 图 上 了 时， 它们 必定 会 在 某 个 点 上 相 樟 。 例 如 ， 假 定 该 算法 用 
于 图 8-9 中 的 映射 且 起 始点 为 10 时 ， 则 在 7 步 之 内 ， 圈 被 检测 出 来 ， 这 可 以 通过 跟踪 a 和 b 的 取 
值 而 看 出 : 
a 10 2 5 26 83 59 17 
b 10 5 83 17 50 83 17 


程序 8.3 ”图 检测 的 Floyd 方 法 





until (a = b}; 





定理 8.11 (图 检测 ) 给 定 一 个 映射 和 起 始点 x，Floyd 算 法 使 用 常数 空间 ， 并 在 与 x 的 p 
长 成 正比 的 时 间 内 找到 映射 中 的 一 个 图 上 的 点 。 


证 明 设 4 是 x 的 尾 长 ,1 为 圈 长 ，p = 和 + 1 为 p 长 。 经 +4 步 循 环 之 后 ， 点 a 到 达 了 图， 而 点 b 
已 经 在 圈 上 。 现 在 我 们 在 图 上 有 一 个 赛跑 ， 其 速度 差 为 1。 最 多 经 过 4 步 ，b 将 赶 上 a。 设 [为 当 
算法 结束 时 变量 t 的 值 ， 则 我 们 也 必 有 

t<p<2t 


左 端 的 不 等 式 成 立 ， 是 因为 :是 点 a 的 位 置 ， 且 算法 在 a 第 二 次 开始 绕 转 运行 之 前 就 应 结束 。 右 
端的 不 等 式 成 立 ， 是 因为 2! 是 点 b 的 位 置 ， 且 算法 应 在 b 至 少 绕 行 一 圈 之 后 才能 结束 。 因 此 ， 
该 算法 不 仅 给 出 了 圈 上 的 一 个 点 〈 变 量 a 和 b 结 束 时 的 值 )， 也 给 出 了 起 始点 的 P 长度 的 一 个 个 
计 ， 且 所 估计 的 值 在 一 个 因子 2 的 范围 之 内 。 a 

通过 再 多 存储 一 些 函 数值 ， 差 不 多 可 以 消去 算法 所 花费 时 间 中 的 额外 因子 2( 时 间 近 似 于 
ok). 而 所 用 的 存储 空间 仍然 比较 合理 。Sedgewick, Szymanksi 和 Yao[28] 对 这 一 问题 给 出 了 
详细 的 研究 。 l 

习题 8.58 ”利用 Floyd 方 法 在 你 的 机 器 上 对 较 短 的 圈 检 验 随机 数 生成 器 。 

习题 8.59 ”利用 Floyd 方 法 检验 平方 取 中 法 随机 数 生 成 器 。 ` 

习题 8.60 ”利用 Floyd 方 法 信 计 关于 函数 

f(x) = (x + c)modN 


中 与 各 种 起 始 值 、c 和 N 等 有 关 的 P 长 。 
Pollard p 法 。p 法 是 一 个 以 高 概率 分 解 整数 的 随机 化 算法 。 程 序 8.4 给 出 了 它 的 一 个 实现 ， 
但 要 注意 ， 必 须 假定 算法 能 对 很 大 的 整数 进行 操作 。 该 算法 根据 一 个 随机 选择 的 < 值 ， 然 后 再 
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从 随机 选择 的 一 个 起 始点 开始 迭代 二 次 函数 
fœ) = Qê + c)modN 
直到 找到 一 个 圈 上 的 点 为 止 。 
为 简单 起 见 ， 假 定 N = pq ， 其 中 p 和 4g 是 算法 要 找 的 素数 。 根 据 中 国 剩 余 定 理 ， 任 何 一 个 
整数 y mod N， 都 由 y 的 值 mod p 和 mod gq 所 确定 。 特 别 地 ， 印 数 f 由 一 对 函数 
f (x) =x? + cmodp 和 f(x) = x + cmodg 
所 确定 。 如 果 将 圈 检 测 的 算法 应 用 到 户 ， 并 起 始 二 一个 初始 值 *， 那 么 经 过 b 步 之 后 将 会 检测 
到 一 个 图 ， 其 中 的 值 最 大 是 x (mod p) 的 p 长 度 的 二 倍 。 类 似 地 ， 经 过 # 步 之 后 ， 将 会 检测 
到 关于 5 的 一 个 围 (mod q). Ak, wR, zx ft。( 对 大 数 而 言 ， 发 生 这 种 情况 的 概率 非常 大 )， 
那么 经 过 min(#, ty) 步 之 后 ， 我 们 将 发 现 算法 中 变量 a、b 的 值 a 和 5b 应 满足 
a = b (modp)#ila# b(modp) (t,<t,) 
a+ b (modp) 和 a = b(modp) (t,>t,) 
在 上 述 任何 一 种 情况 之 下 ，a - b 和 NN 的 最 大 公 因 子 都 是 N 的 一 个 非 平 几 因子 。 
程序 8.4 ”分解 因子 的 Pallard pik 
function factor(N: integer): integer; 
var a, b, c, d: integer; 
begin 


a := randominteger(0, N-1); 
b := a; 


c := randominteger(0, N-1); 
repeat 
a := (ata + c) mod N; 
b := (b*b + c)*(b*b + c) + c mod N; 


a := ged{a-b mod N, N); 
until (d <> 1); 
factor := d; 
end; 





与 随机 映射 的 联系 。 假 设 形 如 f(x) = (x + c)modN 的 二 次 函数 的 路 径 长 性 质 渐 近 地 等 价 于 
随机 映射 中 的 路 径 长 。 这 种 探索 性 的 假设 表明 N 个 二 次 映射 (c 有 N 种 可 能 的 选择 ) 的 性 质 与 
N* 个 随机 映射 的 性 质 是 相似 的 。 换 句 话 说 ， 二 次 函数 被 假定 成 随机 映射 的 一 个 Won ae 
这 个 假设 是 很 有 道理 的 ， 并 且 通 过 模拟 得 到 了 广泛 的 证 实 ， 但 它 只 是 被 部 分 地 证 明 [2]。 

如 此 ， 它 还 是 导出 了 关于 Pollard 法 的 一 个 有 用 的 近似 分 析 。 

上 面 的 讨论 表明 : Pollard 算 法 所 花费 的 步 数 是 min(t, t), 其 中 和 t 分 别 是 f, 和 /的 p 长 。 
根据 定理 8.9， 随 机 N-~ 映 射 上 一 个 随机 点 的 p 长 为 ONN) ， 所 以 在 我 们 上 面 一 段 所 讨 
论 过 的 假设 下 ， 我 们 应 期 望 算法 在 Omin pJ) 步 内 结束 ， 也 即 在 O(N“) 步 内 结束 。 此 论 
证 显然 是 对 NN 有 多 于 两 个 因子 时 的 情形 的 推广 。 

定理 8.12 (Pollard pik) 在 二 次 济 数 中 路 径 长 渐 近 等 于 随机 映射 中 路 径 长 的 探索 性 假 

设 下 ，Pollard p 法 将 一 个 复合 整数 N 分 解 因子 所 需 的 期 望 步 数 是 O(Yp) ， 其 中 p 是 NN 

的 最 小 素数 因子 。 特 别 地 ， 平 均 而 言 ，N 在 O(NL4) 步 内 究 成 分 解 。 

证 明 见 上 面 的 讨论 。 其 整体 界 是 根据 p < VN 的 事实 得 出 的 。 a 

1980 年 ，Brent[26] 利 用 Pollard 方 法 第 一 次 分 解 了 第 8 个 费 马 数 。Brent 发 现 

F,= 2?) + 1 = 1.11579 - 10” 
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具有 素数 因子 
1238926361552897 


(也 可 参见 Knuth[21]。) 目前 ,虽然 这 个 算法 的 近似 分 析 是 建立 在 一 个 还 没有 被 完全 证 明 的 假 
设 条 件 之 下 的 ， 但 这 一 事实 并 没有 降低 它 的 效用 。 事 实 上 ， 对 随机 映射 性 质 的 了 解 给 了 我 们 
这 样 的 信心 : 这 个 方法 是 应 该 能 够 进行 有 效 分 解 的 ， 事 实 上 它 也 确实 如 此 。 

表 8-13 给 出 了 利用 Pollard 方 法 分 解 形 如 N = pg 的 数 时 所 用 的 步 数 ， 其 中 p 和 4 分 别 是 所 选 
取 的 接近 于 形 如 数 1234… 和 4321… 的 质数 。 尽 管 c 和 起 始点 应 该 是 随机 选取 的 ， 但 c = 1 和 起 
始点 a = b = 1 对 该 应 用 的 效果 也 非常 好 (这 样 也 容易 重新 产生 结果 )。 从 这 个 表 中 我 们 可 以 看 
到 : 当 N 以 因子 约 为 100 的 速度 增加 时 ， 开 销 大 约 以 因子 为 3 的 速度 增加 ， 这 与 定理 8.12 极 为 吻 
合 。 该 方法 在 分 解 表 中 最 后 一 个 数 〈 该 数 大 约 为 1.35 x 10") 时 ， 所 用 的 步 数 少 于 24 000, 而 
穷 举 试验 法 将 需要 大 约 10? 次 运算 。 | 


表 8-13 ”Pollard 算 法 的 执行 样 例 (c = 1) 





N 步 数 
13 - 23 4 
127 - 331 10 
1237 - 4327 21 
12347 - 54323 132 
123457 . 654323 243 
1234577 - 7654337 1478 
12345701 - 87654337 3939 
123456791 - 987654323 . 11225 


1234567907 . 10987654367 23932 


字 和 映射 与 组 合 数学 中 的 经 典 问题 和 算法 分 析 中 的 “经 典 ” 问 题 有 着 直接 的 联系 。 我 们 讨 
论 过 的 许多 方法 和 结果 在 数学 上 都 是 众所周知 的 〈 伯 努 利 试验 、 占 有 问题 )， 并 且 它 们 广泛 地 
用 到 算法 分 析 领 域 之 外 。 这 些 经 典 问 题 与 现代 应 用 也 有 着 直接 的 联系 ， 如 预测 散 列 算法 的 性 
能 等 。 在 这 样 的 新 领域 中 ， 对 这 些 经 典 问题 进行 详细 的 研究 将 会 导致 具有 独立 意义 的 新 问题 。 

散 列 算法 是 各 种 算法 中 第 一 批 进行 了 数学 分 析 的 算法 ， 且 它们 仍然 具有 最 重要 的 实际 意 
义 。 新 的 应 用 类 型 以 及 软 、 硬 件 基本 特征 的 改变 ， 使 得 散 列 算法 与 我 们 这 里 所 讨论 的 以 及 文 
献 中 所 介绍 的 有 关 散 列 算法 的 技术 和 结果 仍然 持续 着 这 种 紧密 的 联系 。 

随机 映射 的 分 析 简 明 地 总 结 了 算法 分 析 的 一 般 方法 。 我 们 建立 对 应 于 基本 组 合 结构 的 生 
成 函数 的 函数 方程 ， 然 后 利用 解析 工具 提取 系数 。 在 这 种 情况 下 符号 法 对 前 者 尤其 有 效 ， 而 
对 后 者 而 言 ， 拉 格 朗 日 反 演 定理 是 一 个 重要 的 工具 。 

映射 是 以 每 个 元 素 恰好 映射 到 另外 一 个 元 素 的 事实 为 特征 的 。 在 图 的 表示 中 ， 这 意味 着 
图 中 恰好 有 N 条 边 ， 且 每 个 元 素 恰好 有 一 条 由 该 元 素 所 指向 的 边 ， 不 过 可 能 有 多 个 元 素 指向 某 
一 个 特定 的 元 素 。 下 一 个 推广 就 是 图 ， 图 把 上 面 的 这 种 限制 去 掉 了 ， 即 每 个 元 素 可 以 指向 任 
意 多 个 其 他 元 素 。 与 映射 相 比 ， 或 与 我 们 在 本 书 中 所 考查 过 的 任何 其 他 组 合 结构 相 比 ， 图 都 
更 加 复杂 ， 因 为 把 图 分 解 成 较 简 单 的 结构 将 更 加 困难 ， 而 这 些 简 单 结构 通常 都 是 我 们 通过 求 
解 递归 或 利用 结构 分 解 以 产生 生成 函数 之 间 的 关系 进行 分 析 的 基础 。 

随机 图 具有 大 量 有 趣 的 性 质 。 关 于 这 一 课题 人 们 已 经 写 出 了 许多 著作 ， 这 是 一 个 十 分 活跃 
的 研究 领域 。( 如 果 要 了 解 该 领域 的 概观 ， 可 参见 Bollobis[3]。 ) 随机 图 的 分 析 是 以 “概率 方法 ” 
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为 中 心 的 ， 甚 焦点 问题 并 不 在 于 准确 地 列举 出 所 有 图 的 性 质 ， 而 是 要 建立 起 复杂 参数 与 易于 
处 理 的 参数 之 间 关 系 的 适当 的 不 等 式 。 目 前 有 许多 处 理 图 的 重要 基本 算法 ， 在 有 关 这 些 算法 的 
分 析 文 献 中 也 有 许多 例子 。 不 同 的 随机 模型 适用 于 不 同 的 应 用 ， 使 得 分 析 按 着 我 们 正在 研究 的 
适合 于 多 种 情况 的 路 线 来 进行 。 学 习 随 机 图 的 性 质 在 算法 分 析 中 是 一 个 富有 成 效 的 研究 领域 。 

我 们 以 随机 映射 这 个 论题 来 结束 本 书 内 容 比 较 合适 ， 其 中 有 多 种 原因 : 随机 映射 推广 了 基 
本 而 又 普遍 的 结构 〈 排 列 和 树 ) ， 本 书 中 我 们 曾 为 这 些 结构 付出 过 如 此 之 多 的 关注 ; 随机 映射 
在 随机 数 发 生 器 和 随机 序列 的 使 用 中 具有 直接 的 实际 意义 ; 对 随机 映射 的 分 析 展 示 了 符号 计 
数 法 以 及 我 们 所 使 用 的 其 他 工具 所 具有 的 能 力 、 简 洁 性 和 实用 性 ; 随机 映射 代表 了 我 们 朝 着 
研究 随机 图 的 方向 所 迈 出 的 第 一 步 ( 例 如， 参见 Janson、Knuth、Luczak 和 Pittel[19])， 它 们 是 
基本 的 、 能 被 广泛 应 用 的 结构 。 我 们 希望 本 书 所 涉及 的 基本 工具 和 方法 能 为 读者 提供 浓厚 的 
兴趣 和 专门 的 技能 ， 以 解决 这 些 及 在 将 来 出 现 的 算 靶 的 分 析 中 的 其 他 问题 。 
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索引 中 的 页 码 为 英文 原 书页 码 ， 与 书 中 边栏 页 码 一 致 。 


A 


Abel’s binomial theorem ( 阿 贝 尔 二 项 式 定理 )，129, 450 
Absolute error (asymptotics) (绝对 误差 ( 渐 近 性 ))}，167 
Additive parameter (in tree) (( 树 中 的 ) 可 加 参数 )， 
251-254 
Aho-Corasick algorithm (string) ( Aho-Corasick # 7% ( Œ ) ) 
400-401 
Alcohol (酒精 )，281 
Algebraic geometry (代数 几何 )，456 
Alphabet (字母 表 ): 参见 String; Word 
Ambiguity (formal language) (二 义 性 形式 语言 ): 参见 
Unambiguous 
Analysis of algorithms (算法 分 析 )，1-4, 471-472 
Ancestor node (in a tree) (( 树 中 的 ) 祖先 结 点 )，223 
Arithmetic expression (BARAK), 233-236 
Arrangement 《排列 ) 432 
Assembly language (汇编 语言 )，16 
Asymptotic analysis (Wa): 参见 Coefficient 
asymptotics; Euler-Maclaurin summation; Laplace 
method; Linear recurrence;Stirling’s formula 
Asymptotic approximation ( Æ E&i), 23, 153-155, 
217-218 
Asymptotic expansion (#fULARJF), 24, 153-159, 161- 
180 
finite (BRAD), 163 
Asymptotic notations ( 渐 近 记 法 ) 
o (小 o- 记 法 )，155-159 
O (大 0- 记 法 )，4-5, 155-159 
Q (大 史 - 记 法 ) 4-5 
© (大 @8- 记 法 )，4-5 
~ (~~ igtk), 155-159 
Asymptotic scale ( 渐 近 级 )，162 
Asymptotic series (新 近 级 数 )，162 
.Autocorrelation (of a string) (( $) 自 相 关 )，372-377 
Automatic analysis of algorithms (算法 自动 分 析 )，125- 
126, 410 
Automaton (自动 机 ) 
finite-state (FSA) (有 限 状 态 )，361 


Kleene’s theorem (Kleene 定 理 )，379 
and regular expression (与 规则 表达 式 )，379 
and string searching (与 串 查 找 )，382-385, 400-401 
Average (平均 ): 参见 Expected value 
Average-case analysis (平均 情形 分 析 }，12-14 
AVL tree (Adel’son-Vel’skii and Landis (AVL 树 )，290- 
292, 294 


B-tree (Bf), 290-292 
Bach’s theorem (on quadratic maps) (( 关于 二 次 映射 的 ) 
Bach 定 理 )，456, 469 
Balanced tree (平衡 树 }，239, 290 
Ballot problem (选票 问题 ) ，128, 268-272, 390-391 
Balls (£R), 414, 416-421, 431-432, 437-445 
Batcher’s odd-even merge (奇偶 合并 ): 参见 Odd-even 
merge | 
Bell curve (Bell 曲 线 ): Æ M. Normal distribution 
Bell number (Bell#z), 429 
Bernoulli distribution (binomial distribution) ( 伯 努 利 分 
布 (二 项 分 布 ))，194, 361, 413-414 
Bernoulli number (By), (4334/8) 
asymptotics 〈 渐 近 性 ) 169 
definition (定义 )，143, 145-146 
in summations (7E #0), 181-187 
values ({4), 182 

Bernoulli polynomial (B,(x)) (〈 伯 努 利 多 项 式 ) 
definition (定义 )，143, 146 
in summations (在 求 和 中 )，181-187 

Bernoulli trial: ( 伯 努 利 试验 ) 

BGF (Bivariate generating function) (二 元 生成 商 数 ): 
参见 Cumulative analysis;Generating function; 
Moments 

Binary search ( 折 半 查找 )，64-65 

Binary search tree (二 又 查找 树 ) 

additive parameter ( 可 加 参数 ) 251-254 
average path length (平均 路 径 长 ) 246-248 
construction (构造 ) 246-249 
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decomposition of permutations 《排列 的 分 解 )，326 
definition (定义 )，237 
frequency (频率 )，316-317 
and heap-ordered tree (与 堆 序 树 ) 314-317 
height (高 )，260-261 
insertion program (插入 程序 )，238 
leaves (树叶 )，253-254, 331-334 
node types ( 结 点 类 型 )，331-334 
and permutation ( 与 排列 ) ，313-317 
and Quicksort ( 与 快速 排序 ) 248-249 
search cost distribution (查找 开销 分 布 )，249-250 
search program (查找 程序 )，237 
and trie (与 trie 树 )，397 
Binary tree (二 又 树 ) 
additive parameter ( 可 加 参数 )，251-254 
average path length (平均 路 径 长 ) 241-245 
counting (it#c), 113-116, 224 
definition (#32), 113, 222-223, 276 
and general tree (与 一 般 树 )，227 
generating function (生成 函数 )，114, 127-128, 224, 
226, 386-387 
height (i), 228-230, 255-256 
internal/external node (内 部 /外 部 结 点 )，113, 222- 
223 
internal/external path length (内 部 /外 部 路 径 长 )，228- 
229, 241-246 
leaves (Hiit), 139-141, 228-229, 253- 254 
_ rotation correspondence (旋转 对 应 )，227 
and set of strings ( 与 串 集 ) ，392-396 
table ( 表 )，113 
and trie (与 trie 树 ) 392-396 
Binomial (二 项 式 ) 
convolution (#41), 88-92 
sum (#0), 88-92 
transform (变换 )，105-106 
Binomial coefficient (二 项 式 系数 )，102, 143-145 
asymptotics ( 渐 近 性 )，169 
bivariate asymptotics (二 元 渐 近 性 )，194-202 
definition (定义 )，102 - 
normal approximation ( E&E), 196-198 
Poisson approximation (74#SHUE), 198-202 
Binomial distribution (—Jii47 4H), 117-118, 131-132, 
134-135 
asymptotics (EHE), 169, 194-207 
and hashing (与 散 列 ) 416-421, 437-445 
normal approximation ( 正 态 和 逼近 )，196-198 
occupancy problems (占有 问题 ) 416-421, 437-445 
Poisson approximation ( MEVE), 198-202, 414 
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and random strings ( 与 随机 串 )，366-367 
tails (尾部 )，197-198 
and tries (与 trie 树 ) 401-408 
Binomial theorem (Newton’s theorem) (二 项 式 定理 ( 牛 
- 顿 定理 ) ) 101-102, 114, 117 
Birthday problem (生日 问题 ) 188, 422-425, 432, 445, 
462 
Bitstring ( (243), 361; 参见 String 
Bivariate asymptotics 〈 二 元 渐 近 性 )，187-206 
Bivariate generating function (BGF) (二 元 生成 函数 
(BGF): 参见 Cumulative analysis; Generating 
function; Moments 
Bootstrapping (引导 ): 参见 Iteration 
Boyer-Moore algorithm(string searching) (Boyer-Moore 
算法 〈 串 查找 ))，408-409 
BST: 参见 Binary search tree 
Bubble sort ( HHFF), 355-356 
Bytestring ( 字 节 串 )，361, 377, 413-414; 参见 String 


C 


Caching algorithm (高 速 缓存 算 法 ) 430-431 

Carry propagation (进位 传送 ) ，71-72, 372 

Cartesian product construction ( 笛 卡 儿 乘积 结构 )，118- 
119 


，Catalan distribution (Catalan 分 布 ) 241-242 


Catalan model (random trees) (Catalan 模 型 (随机 树 )， 
236, 240-241, 251-254, 293 
Catalan number (Ty = Gy,,) (Catalan 数 )，114, 143, 224, 
226 
asymptotics (MEHE), 169,174, 186 
and ballot problem ( 与 选票 问题 ) 128, 268-272, 390- 
391 f 
and binary trees ( 5X), 113-116, 121 
definition (#32), 114 
and general trees (与 一 般 树 ) 226-227 
generating function (生成 函数 )，114, 127-128, 224, 
226, 386-387 
history (H), 269-270 
and symbolic method (与 符号 方法 ) 121, 224, 226 
table of combinatorial objects (组 合 学 对 象 表 )，271 
Catalan sums (Catalan#l), 207-210 
Catalan tree (Catalan 树 ): 参见 Catalan model 
Cayley function (C(z) = ze“) (Cayley 3%), 128-129 
expansion of powers (WEJ), 285 
and labelled tree (与 标号 树 ) 285 
and Lagrange inversion (与 拉 格 朗 日 反 演 )，128-129 
and maps ( 与 映射 ) 462-466 
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Cayley tree (Cayley 树 ): £ Kl Labelled tree 
Central limit theorem (中 心 极限 定理 )，337 
CFG (上 下 文 无 关 语 法 ): 参见 Context-free grammar 
CGF (Cumulative generating function)〈 累 积 生 成 函数 ): 
参见 Generating function; Cumulative analysis 
Character (letter) (字符 (字母 )): # String; Word 
Characteristic polynomial (of a recurrence) (( 递 妇 的 ) 特 
征 多 项 式 )，48, 97 
Chebyshev’s inequality ( 场 比 雪夫 不 等 式 )，26-27, 444- 
445 
Child node (in a tree)(( 树 中 ) 子 结 点 )，223 
Chomsky and Schiitzenberger’s theorem (formal language) 
(Chomsky 5Schitzenbergere Hl (形式 语言 ) )， 
378-379, 387-388 
Clustering (hashing) (聚集 ( 散 列 ) ) 446,449 
Coalesced hashing 〈 接 合 散 列 ) 445 
Coefficient asymptotics (from GF) (( 来 自生 成 函数 的 ) 
系数 渐 近 性 )，103, 213-218 
and permutations (与 排列 )，322 
and strings (4883), 369-370 
and trees (54), 281, 289-290 
Coefficient notation ([z"]f(z)]) (系数 记 法 )，82, 88 
Coin flipping ( 投 毛 硬 币 ): 参见 Binomial distribution 
Collision (hashing, occupancy)( 神 突 ( 散 列 , 占有 ))， 
414, 423-424, 445, 448 
Combinatorial algorithm (组 合算 法 )，30-31, 272-276, 
279 
Comparison-based sorting (基于 比较 的 排序 ) ，299-300 
Complex analysis ( 复 分 析 )， 103, 149, 213-218, 281, 
289-290 
Complexity of sorting (排序 的 复杂 性 )，9 
Computational complexity (计算 复杂 性 )，2-5, 8-10, 77 
Computer algebra (计算 机 代数 )，388-390 
Connected component (map) (连通 分 量 (映射 ))， 457-466 
Connected graph (连通 图 )，274 
Constructions (构造 ): 参见 Symbolic method 
Context-free grammar ( 上 下 文 无 关 语 法 ) 385-392 
Continuant polynomial (接续 多 项 式 )，53 
Continued fraction (4%), 53, 56-57 
and height of trees (与 树 的 高 )，256-260 
Convergence (收敛 性 ) 45-47, 84, 153, 165- 166, 214- 
217 
asymptotic expansion ( 渐 近 展开 )，153, 165-166 
power series (WRZ), 84 
quadratic (7K), 45-46 
radius (+244), 214-217 
simple (简单 ) 45 
slow (#2), 46-47 


Convolution (#9), 84-86, 88-92, 114 
Vandermonde (707832 75%), 104 
Cost function (FF #4 AB), 133, 136-139 
Coupon collector problem (WEIK), 425-429 
Cumulated cost (累积 开销 )，13, 136 
Cumulative analysis ( 累积 分 析 )，13, 139-140, 244, 323- 
324, 359 
Cumulative analysis in applications (应 用 程序 中 的 累积 
分 析 ) - 
permutations (排列 ) 323-334, 338, 345, 352-353 
string searching (Hd), 364-366 
trees (Ht), 241-254 
words (%), 421-422, 438 
Cumulative generating function ( 累积 生成 函数 ) 
(CGF): 参见 Cumulative analysis;Generating function 
Cycle detection (map) (EM (HRET)), 467-468, 480 
Cycle leader (HAH), 302,311 
Cycles (in permutation) ( (排列 中 的 ) ) 
distribution (分 布 )，350-355 
maximal/minimal ( 极 大 / 极 小 )，317-323 
and permutation (与 排列 )，122-123, 302 
set of (图 的 集合 )，122-126, 318-319, 321-323 
Cycles (in map) (BRAT HAY) B, 457-466 


D 


Darboux’s method (asymptotics) (Darboux 方 法 ( 渐 近 
性 ))，216, 281, 290 
Decomposable combinatorial structures (可 分 解 组 合 结 
构 )，126 
Decomposition of permutations (排列 的 分 解 )，323-326 
Derangement (错位 排列 )，178, 302, 434 
asymptotics ( 渐 近 性 )，178, 322 
definition (4232), 178,302 
generating function (生成 国 数 ) 321-323 
Descendant node (in a tree) (( 树 中 的 ) 后 裔 结 点 ) 223 
Dictionary problem (字典 问题 ) ，64-65, 236, 398-401 
Difference equation (差分 方程 )，36, 211-213 
Differential equation (微分 方程 )，99-100, 109-112 
Differential equations in applications (应 用 中 的 微分 方程 ) 
BST (二 又 查 找 树 )，251-254 
Eulerian numbers ( 欧 拉 数 )，329, 333 
HOT ( 堆 序 树 )，315 
increasing subsequences (递增 子 序列 )，330 
involutions ( 卷 积 )，320 
maxima (最 大 值 )，346-347 
median-of-three Quicksort ( 三 数 中 值 快速 排序 
Quicksort), 109-112 
Quicksort (快速 排序 Quicksort ) 99-100 
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Digital searching (数字 查找 ): 参见 Trie 
Dirichlet generating function (DGF) ( 狄 利克 菜 生 成 函 
数 )，147 

Discrete sums (离散 和 ) 

asymptotics ( 渐 近 性 )，177-180 

table (#8), 42 
Disjoint union (不 相交 并 )，118-119 
Distributed algorithms (分 布 式 算 法 ) 406-408 
Distribution (probability) (分 布 (概率 ))，25-28 
Distrivutional analysis (分 布 分 析 )，13, 25-28 
Divergent series (asymptotics) (发 散 级 数 ( 渐 近 性 ))， 

165-166 

Divide-and-conquer (分 治 ) 

algorithm (H3), 6 

function ( Bt), 73-75 

periodicity (JASE), 62-65, 74 

recurrence (%19), 62-77 

theorem ( Æ), 73,76 
Divisor function (除数 函数 )，148 
Dollar, changing a (美元 , Æ), 116, 161 
Double hashing ( 双 散 列 ) 446, 448 
Dynamic process (动态 过 程 )，422, 430 


E 


Elimination ( 消 元 法 ): 参见 Groebner basis 
` Empty (list, urn in hashing) ( 空 ( 表 , 散 列 中 的 倪 ))， 
439, 454 
Error term (in asymptotic expansion) (( 在 断 近 展开 式 中 
的 ) 误差 项 ) 162 
Euler and Segner (on Catalan numbers) ( 欧 拉 和 Segner 
(关于 Catalan 数 ) 的 工作 )，269-270 
Euler’s constant (y) (Be Bc), 23, 184 
Euler equation (Wir), 110-112 
Euler-Maclaurin constants ( 欧 拉 -- 麦 克 劳 林 常 数 )，184-187 
Euler-Maclaurin summation ( 欧 拉 -麦克 劳 林 求 和 )、23， 
154, 177, 180-187 
and bivariate asymptotics (与 二 元 渐 近 性 )，203-210 
and Catalan sums (〈 与 Catalan 和 和 )，203-210 
discrete form (离散 形式 )，184-187 
and height of trees 与 树 的 高 )，25S6-260 
general form (一 般 形式 ) 180-184 
Eulerian number (Wki), 328-329, 333 
Exp-log transformation (指数 -对 数 变 换 )，174-175, 190 
Expectation (of a discrete variable)( (离散 变量 的 ) 数学 
期 望 )，129 
and PGF ( 与 概率 生成 函数 ) 129-132 
Exponentially small term (指数 级 小 项 ) 157-158, 191, 
204 


# | 


Expression evaluation (#jAK RA): # Register 
allocation 
External node ( 外 部 结 点 ) 
binary tree (二 又 树 )，113, 222-223 
trie (trie 树 ) 392-396 


.External path length (binary tree)( 外 部 路 径 长 (二 叉 树 ) ) , 


113, 222-223 


Extremal parameter (permutation) ( 极 值 参数 (排列 ) ) ， 
355-358 


F 


Faà di Bruno’s formula (Faà di Bruno 公 式 )，106 
Factorial powers (阶乘 等 )，145 
Factorization (of integers) (( 整 数 的 ) 因子 分 解 ) 414, 
466-471 
Fibonacci number (Fy) ( 斐 波 那 契 数 )，38, 50-51, 53, 56- 
57, 94, 120 
asymptotics (Mitte). 169 
definition (#32), 38, 143 
generalized (J7 3289), 161, 369-370 
generating function (生成 函数 )，94, 104-105, 143 
golden ratio (黄金 分 割 ), 51, 169, 371 
and strings (542), 120, 369-370 
Fibonacci polynomial ( 斐 波 那 契 多 项 式 ) ，258 
Final state (automaton) (最 后 状态 〈 自 动机 )): 参见 
Automaton 
Finite function (有 限 函 数 ): 参见 Map 
Finite-state automaton (FSA): (有 限 状 态 自动 机 ): 参见 
Automaton 
First correspondence (第 一 对 应 )，325, 421-422 
Floyd’s cycle detection algorithm (map) (Floydi WA 
法 (RAT) ), 467-468 
Foata’s correspondence (permutations) ( Foata 对 应 (HE 
Fl)), 303,351 
Footnote (脚注 ) 452 
Forest (森林 )，128, 225, 273, 285 
Formal language (形式 语言 : ): 参见 Language 
Formal power series (形式 里 级 数 )，84 
Fractal (不 规则 碎 段 )，63, 69-70, 78 
Fractional part ({x}) 《小 数 部 分 }，65, 180, 403-405 
Free tree (自由 树 ): 参见 Unordered tree 
Frequency (analysis of algorithm) ( 频率 (算法 分 析 ))， 
11-12, 16 
Frequency of letters (字母 的 频率 ) 
table (#), 435 
in words ( 字 中 的 )，413-415, 431-432 
Fringe analysis (边缘 分 析 )，44 
FSA: 参见 Finite-state automaton 
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Full table (hashing) (7&2 (和 散 列 ) ) 452 
Function (finite) (( 有 限 ) 函数 ): 参见 Map 
Functional equation ( 国 数 方 程 )，106-109, 114, 149, 
211-213, 385-391, 402-406 
Functional equations in applications ( 应 用 中 的 函数 方程 ) 
binary search tree (二 又 查找 树 )，248, 261 
context-free grammar (上 下 文 无 关 语 法 )，385-391 
in situ permutation (在 原 位 排列 中 )，、354 
radix-exchange sort (基数 -交换 排序 )，212-213 
trees ( 树 )，243-246, 248, 263-264, 284-286 
tries (trie 树 ) ，211-213, 402-406 
2-ordered permutation (2- 有 序 排列 ) 343 
unordered trees《〈 无 序 树 ) 281 
Fundamental correspondence (基本 对 应 ): 参见 Foata's 
Correspondence 


G 


Gambler’s ruin ( 赌 徒 破产 ) 268-272, 380 
Gamma function (of Euler) ({( 欧 拉 的 ) to Br), 216 
General tree (一 般 树 ): 参见 Tree 
Generalized harmonic number (Hy™) (广义 调和 数 )，87， 
141-142, 187, 250, 344 
Generating function (GF) (生成 国 数 ) 81-82, 148-150 
bivariate (BGF) (二 元 (二 元 生成 函数 ))，132-142 
coefficient (系数 )，82-87 
coefficient asymptotics ( 系数 渐 近 性 )，213-218 
cumulative (CGF) ( 黑 积 的 (累积 生成 函数 ))，13， 
136-138 
expansion (展开 )，101-104 
exponential (EGF) (指数 (指数 生成 函数 ))，88-92 
exponential (operations) (指数 (运算 ))，88 
exponential (table) 《指数 〈 表 ))，88 
linear recurrence (线性 递归 )，92-99 
ordinary (OGF) (常规 (常规 生成 函数 ))，82-87 
ordinary (operations) (常规 (运算 ))，84-86 
ordinary (table) (常规 ( 表 ))，83 
probability (PGF) (概率 (概率 生成 函数 ))，129-132 
and recurrences (与 递归 )，92-100 
singularities (#4 5¢tk), 103, 216-218 
symbolic method (符号 方法 )，118-126 
transformation (变换 )，104-106 
GF: 参见 Generating function 
Golden ratio ($ = (1 + V5)/2) (黄金 分 割 )，51, 169, 371 
Graphs (R), 216, 272-286, 310, 471-472 
Groebner basis (elimination) (Groeber (W7C )). 
387-391 


H 


Harmonic number (iM #1%), 17-18, 23, 143 
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asymptotics ( 渐 近 性 )，169, 184-187 
generalized (HO) (广义 的 )，87, 141-142, 187, 250, 
344. 
generating function (生成 函数 )，86,91 
Hash function ( 散 列 函数 )，414 
Hashing algorithms ( 散 列 算法 )，413-416 
analytic results (解析 结果 )，453 
collision (冲突 )，423-424, 445 
comparative table (比较 表 )，453 
dynamics (动力 学 )，422, 430 
empty list ( 空 表 )，439 
linear probing (线性 探测 )，445-446, 449-453 
longest list (最 长 表 )，436 
open addressing (开放 定 址 法 )，445-453 
randomness assumption (随机 性 假设 )，416 
separate chaining (分 离 链 接 法 )，414-416, 437-445 
and trie (与 trie 树 )，416 
uniform hashing (均匀 散 列 )，446-448 
Heap-ordered tree (HOT)( 堆 序 树 )，314-317 
decomposition of permutations (排列 的 分 解 )，326 
equivalence with BST (与 二 叉 查 找 树 的 等 价 性 )， 
316-317 
node types ( 结 点 类 型 )、331-334 
Height (of a tree) ( 树 的 高 ) 
definition (定义 )，228-229 
in binary search trees (在 二 又 查找 树 中 )，260-261 
in binary trees (在 二 叉 树 中 )，255-256 ` 
in general trees (在 一 般 树 中 ) 256-260, 380-381 
in random walk (在 随机 途径 中 )，380-381 
table (expectations) ( 表 (期 望 ) ) 264 
Height-restricted tree (高 受 限 树 ) 290-293 
Horizontal expansion (of a BGF)(( 二 元 生成 函数 的 ) 水 
平展 开 )，135-138 
Horse kicks (in the Prussian Army) (( 在 普鲁士 军队 中 ) 
马 踢 死人 )，199 
HOT: 参见 Heap-ordered tree 
Huffman tree (AA BH), 266, 398 


Implicit function 〈( 隐 函数 )，127 

Increasing subsequence (permutation) (递增 子 序列 (HE 
列 ) )，304, 330-331 

Initial state (automaton) (初始 状态 (自动 机 )): 参见 
Automaton l 

Infix representation ( FRIR ): # W Inorder 
traversal 

Information retrieval ( 信息 检索 ) 413 

Information theory (信息 论 )，266 
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Inorder traversal (of a tree) 〈( 树 的 ) 中 序 遍 历 }，231- 
233, 267, 332 
Input, model (输入 ， 模型 )， 12,29 
Input, random ($A, BAHL), 12-13, 19 
Insertion sort (4A BEF), 334-339 
In situ permutation (rearrangement) (在 原 位 排列 中 ( 重 
新 排列 ))，307-308, 350-354 
Integer factorization (整数 分 解 )，466-471 
Integer partitions (整数 分 拆 )，214 
Integrals (and sums) (积分 (与 和 ))，179-180 
Integration factor (differential equation) (RAAF (i 
分 方程 )) 100 
Internal node (内 部 结 点 ) 
binary tree (二 叉 树 ) 113, 222-223 
trie (trie 树 ) 392-396 
Internal path length (内 部 路 径 长 ) 
definition (binary tree) (定义 (二 叉 树 ))，228-229 
Inverse permutation( 逆 排列 )，303, 312-313 
Inversion (of a function) (( 函数 的 ) 逆 )，127 
expansion (F ), 176 
Lagrange(〈 拉 格 朗 日 ): 参见 Lagrange inversion 
Inversion (in permutation) ( (排列 中 的 ) 逆序 ) 
and bubble sort, 355-356 (与 冒 泡 排序 ) 
definition (752), 301 
distribution (4+ 47), 336-339 
and insertion sorts (与 插入 排序 ) 334-343 
maximum (Xi), 355-356 
table (%), 301, 311-312, 334-339, 343-347, 355-356 
Involution (permutation) (对 合 (HE¥Il)), 303, 434 
enumeration (#24), 317-320 
Iteration (3848), 41,56, 73-74, 108, 213 


K 


Key (288), 20, 236, 414-416 

Kleene’s theorem (formal language) (Kleene 定 理 (形式 
语言 ))，379 

KMP: 参见 Knuth-Morris-Pratt algorithm 

Knuth (and analysis of algorithms) (Knuth (与 算法 分 
Br)), 413, 449, 452 

Knuth-Morris-Pratt algorithm (KMP) (Knuth-Morris- 
Pratt 算 法 )，366, 382-385, 400-401, 408-409 

Kraft equality ( Kraft 不等式)，230 

Kruskal’s algorithm (Kruskal 算 法 )，275-276 


L 


Labelled cycle construction (标号 圈 结 构 )，462 
Labelled object (标号 对 象 )，89, 121-122 


symbolic method (符号 方法 )，121-126 
Labelled product construction (标号 乘积 结构 )，123-124 
Labelled set construction (标号 集合 结构 ) ，122-126 


Labelled tree (Cayley tree) (标号 树 (Cayley 树 ) ) ， 
， 128-129 
enumeration ( 枚 举 )，282-286 
enumeration (table) ( 枚 举 〈( 表 ))，283 
and map (与 映射 }，462-466 
Lagrange inversion ( 拉 格 朗 日 反 演 )，126-129 
Lagrange inversion in applications (应 用 中 的 拉 格 朗 日 
反 演 ) 
height of trees ( 树 的 高 )，256-260 
labelled tree (标号 树 )，285-286 
maps (映射 )，462-466 
t-ary tree (t- 叉 树 )，288 
ternary tree (=X), 127-128 
Lambert series (Lanbert 级 数 )，148 
Language (set of strings) (语言 ( 串 的 集合 ) ) 362, 410- 
411 
context-free (上 下 文 无 关 )，385-392 
regular (规则 )，377-381 
Laplace method (for sums) ( 拉 普 拉 斯 方法 ( 求 和 ) )， 
155, 202-210 

Laplace method in applications (应 用 程序 中 的 拉 普 拉 斯 

方法 ) 

. height of trees ( 树 的 高 ) 256-260 
increasing subsequence 〈 递 增 子 序列 ) 330-331 
involutions (对 合 )，319 

Laplace transform ( 拉 普 拉 斯 变换 )，91-92 

Largest correspondence (最 大 对 应 )， 325, 421-422 

Last correspondence (最 后 对 应 )， 325, 345, 421-422, 

428 | . 

Lattice path ( 格 路 径 ) 268-272, 339-343, 380, 390-391 

Lattice representation (permutation) ( 格 表示 (排列 ) )， 

312-313 

Leader election (领导 人 选举 ) 406-408 

Leaf (树叶 ) 
definition (binary tree) (定义 (二叉树 ) ) 139, 228- 

229 
definition (general tyee) (定义 (一 般 树 ))，228 
expectation (trees) (期 望 ( 树 ) )，139-140, 253-254 
expectation (binary search tree) (期 望 (二 又 查找 树 ))， 
253-254, 331-334 
Left-to-right maximum/minimum (in permutation) (( 在 排 
列 中 ) 左 向 右 最 大 /最 小 : 参见 Maximum 

Letter (character) (字母 《字符 }: 参见 String， Word 

Level (of a node in a tree) (( 树 中 结 点 的 ) 层次 ) 228 

Level order traversal ( 层 序 遍历 ) 233 
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L’H6pital’s rule ( 洛 必 达 法 则 )，160 
Limiting distribution (极限 分 布 )，、26-27 
Linear probing (hashing) (线性 探测 ( 散 列 ))，445-446， 
449-453 
Linear recurrence (线性 递归 )，40-41 
asymptotics ( 渐 近 性 )，159-161 
generating function (+: REAR), 92-99 
Linear recurrence in applications (应 用 程序 中 的 线性 递归 ) 
fringe analysis (边缘 分 析 )，44 
height of tree ( 树 的 高 )，258 
run in string ( 串 中 的 游程 )，369-370 
Linked list (in hashing)(( 在 散 列 中 ) 链表 )，414-416 
List (in hashing) (( 在 散 列 中 ) 表 )，414-416 
Longest list (hashing) (最 长 表 《〈 散 列 ) ) 436 
Longest run (in string) (( 在 串 中 ) 最 长 游程 )，372-373 
Lower bound (complexity) (下 界 (复杂 性 )), 9 


M 


Map (映射 )，413-414 
connected component (连通 分 量 )，457-466 
cycles (W), 457-466 
image cardinality ( 象 的 基数 ) 454-455 
main property table ( 主要 性 质 表 )，465 
path length (路 径 长 )，457-466 
random (随机 )，454, 467-471 
and random number generators (与 随机 数 发 生 器 )， 
455-457 
rho length (p 长 )，459-461 
and tree ( 与 树 ) 459 
and word (与 字 ), 454 
Maximum (left-to-right maximum in permutation) (最 大 
E (排列 中 的 左 向 右 最 大 值 )): 参见 Minimum 
Mean (平均 值 ): 参见 Expectation 
Median-of-three Quicksort (三 数 中 值 快速 排序 
Quicksort), 21, 59, 109-112 
recurrence (319), 21 
theorem (2), 109-112 
Mellin transform (Mellin 变 换 ) 404, 410 
Memory management ( 内 存 管 理 ) 430-431, 445 
Mergesort (归并 排序 ) 5-8 
program (程序 ) 7 
recurrence (3899), 7,37, 62-64, 66-67 
theorem (定理 ) 66-67 
Middle square generator (平方 取 中 发 生 器 ) 456 
Minimum (left-to-right minimum in permutation) (最 小 
值 (排列 中 的 左 向 右 最 小 值 )) 
definition (定义 )，301 
distribution (分 布 )，343-347 
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and selection sort (与 选择 排序 )，348-349 
Model (模型 )}: 参见 Binary search tree model; Catalan 
model; Random map model; Random permutation 
model; Random string model; Random trie model 
Moments (of a distribution) 〈 (分布 的 ) 矩 )，13, 130 
and BGF (table) ( 与 二 元 生成 函数 ( 表 ))，138 
horizontal computation (水 平 计算 )，136-138 
and PGF (与 概率 生成 函数 )，130 
vertical computation (##Hit®), 138, 139 
Motzkin number ( Motzkin¥), 289 
Multiset construction (多 重 集结 构 )，121, 280 


N 


Newton series (牛顿 级 数 )，149 
Newton’s algorithm (牛顿 算法 ) 45-46 
Newton’s theorem (binomial theorem) (牛顿 定理 (二 项 
式 定理 ))，101-102, 114 
Nonplane tree ( 非 平面 树 ): 参见 Ordered tree 
Nonterminal symbol ( 非 终止 符号 ): 参见 Context-free 
grammar 
Normal approximation ( EAB ) 
and analysis of algorithms ( 与 算法 分 析 )，207-210 
binomial distribution 〈 二 项 分 布 )，196-198, 414 
and hashing ( 与 散 列 ) 437-445 
and height of trees (与 树 的 高 )，196-198 
Normal distribution ( 正 态 分 布 )，155, 169, 195 
Null object (e) 〈 空 对 象 )，120 
Number representation ( 数 表示 法 )，64, 78-79 


O 


o-notation (0) (/)o-id?k), 155-159 

O-notation (O) (大 O- 记 法 )，4-$, 155-159, 171-177 

Occupancy problems (占有 问题 ) 413-414, 416-421, 431- 
432, 437-445: 参见 Hashing algorithms; Words 

Occurrence (of a pattern) (( 模式 的 ) Æ), 362-366 

Odd-even merge (47 (IAF), 207-210 

Omega-notation(Q) (Qig#:), 4-5 

Open addressing hashing (开放 定 址 散 列 法 ) 445-453 

Ordered combination (有 序 组 合 )，432 

Ordered tree (有 序 树 ): 参见 Unordered tree 

Oriented tree (有 向 树 ) 276-277 

Oscillation (震荡 ): 参见 Periodicity 


P 


Pachinko machine ( 弹 球 盘 机 )，445 


Page reference (caching) (页 引用 (高 速 缓存 ))，430-431 
Paradox ( 悖 论 ): 参见 Birthday problem 
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Parent node (in a tree) (( 树 中 的 ) AA), 223,273 
Parse tree (of an expression) (( 表达 式 的 ) 的 分 析 树 )，233 
Partial fraction (#847473), 93-94, 103, 216 
Partial sum (#6441), 84-86 
Path length (of a tree, of a map) (( 树 的 , 图 的 ) 路 径 长 ) 
average (BST model) (平均 (二 又 查 找 树 模型 ))，246-248 
average (Catalan model) (平均 (Catalan 模 型 })，241-246 
average (map) (平均 (映射) )，457-466 
definition (map) (定义 (映射 ))}，457 
definition (tree) (定义 ( 树 ))，228-229 
table (tree) (3 ( 树 ))，263 
Patricia trie (Patricia trie 树 ) ，397 
Pattern (string) (模式 (#)) 
autocorrelation (A #436), 372-377 
contained in strings (counting) ( 含 于 串 中 的 〈 计 数 ) )， 
372-377 
multiple ( 多重)，400-401 
occurrence (Æ), 362-366 
Pattern-matching (模式 匹配 ): 参见 String searching 
Peak (in permutation) ( (在 排列 中 的 ) 峰 )，304, 314, 
331-334 - 
Periodicity (周期 性 )，62-65, 74, 97, 372, 402-405, 410 
Permutation (HEF), 122, 299-301 
algorithms (Ñk), 306-310 
and BST (与 二 又 查找 树 )，313-317 
basic properties (table) (基本 性 质 ( 表 ))，305 
cumulative analysis (累积 分 析 )，323-334, 338, 345, 
352-353 
cycle length restriction (table) ( 圈 长 限制 〈( 表 ))，323 
cycles ( 圈 )，122-126, 302, 311, 351-354 
decompositions (47%), 323-326 
extremal parameters ( 极 值 参数 ) 355-358 
and HOT (与 堆 序 树 )，313-317 
in situ (在 原 位 )，307-308, 350-354 
increasing subsequence (递增 子 序列 )，304, 330-331 
inverse (3° HEF), 303, 312-313 
inversion (逆序 )，301, 311-312, 334-339 
local properties (局 部 性 质 ) 331-334 
longest cycle (KAA), 317-320, 357-358 
maximum/minimum (最 大 值 /最 小 值 ) 301, 343-349, 
351 
maximum inversion (最 大 逆序 )，356 
peak/valley (#&/4), 304, 314, 331-334 
representation (表示 法 ) 310-317 
rise (EFt), 304, 326-330 
run (FFE), 304, 326-330 
shortest cycle (最 短 圈 )，321-323, 357-358 
singleton cycle (#464), 321, 352-354 


table of properties (性 质 表 )，334 
Permutation model (random permutations) (排列 模型 
(随机 排列 ) ) ，239 
Perturbation method (扰动 方法 ) 54, 60-62 
PGF (Probability generating function) (概率 生成 函数 ): 
参见 Generating function;Moments 
Planar subdivision (平面 组 分 ) 269-272 
Plane tree (平面 树 ) 276-277 
Poincaré series (asymptotic expansion) (Poincaré 级 数 
( 渐 近 展开 ) )，163 
Poisson approximation ( 泊 松 逼近 ) 
and analysis of algorithms ( 与 算法 分 析 ) ，210-213 
binomial distribution (二 项 分 布 ) 198-202, 414 
and hashing ( 与 散 列 ) 437-445 
Poisson distribution (W44 ), 155, 169, 202, 353-354 
Pole (of a rational function) (( 有 理 函 数 的 ) 极 )，159 
Pollard’s rho method (Pollard p 方 法 )，466-471 
Pólya (and Darboux’s method) (Pélya 《与 达 布 方法 ) ) 290 
Polygon triangulation ( 多边 形 三 角 训 分) 269-272 
Polynomial equation (多 项 式 方 程 )，387-391 
Population count function ( 人口 计数 函数 ) 68-70 
Postfix representation (HAREK: ): 参见 Preorder 
traversal 
Postorder traversal (of a tree) 〈( 树 的 ) 后 序 遍 历 )，231-233 
Power series (之 级 数 )，84 
Power sums (项 和 )、146 
Prefix (of a string) (( 串 的 ) 前 级 )，365 
Prefix representation (前 缀 表达 式 ): 参见 Preorder 
traversal 
Prefix set (of strings) (( BAS) BIAS), 392-396 
Preorder traversal (of a tree) (( HAY) 先 序 遍历 ) 231-233 
program (程序 ) 233 
tree representation ( 树 表示 法 )，265-269 
Priority queue (优先 队列 )，310, 314 
Probabilistic algorithm (概率 算法 ) 28-29 
Probability generating function (PGF) (概率 生成 国 数 ) ， 
129-132 
and BOF (与 二 元 生成 国 数 )，132-141 
and moments (543), 132-141 
and permutations (与 排列 ) 336, 344 
and Quicksort ( 与 快速 排序 Quicksort) 132 
Probe (in hashing) (( 在 散 列 算法 中 的 ) RW), 416, 447 
Prodinger’s algorithm (leader election) (Prodinger 算 法 
(领导 人 选举 ))，406-408 
Product, Cartesian (#)-K JLA€#R). 118-119 
Product, labelled (标号 乘积 )，123-124 
Program (程序 )，11 
Pushdown stack ( FHER): 参见 Stack 





Q 


Q-function (Q&A): 参见 Ramanujan Q-function 
Quadratic map (二 次 映射 )，456, 467-471 
Quadtree (四 又 树 )，270, 288 
Quicksort (快速 排序 )，14-15 
analysis (分 析 )，14-18 
asymptotics (table) ( 渐 近 性 ( 表 ))，162 
and binary search trees ( 与 二 又 查找 树 ) 248-249 
distribution (分 布 )，26-28, 132, 141-142 
empirical complexity (经 验 复 杂 度 )}，19 
generating function (Æ ARERR). 99-100 
median-of-three (三 数 中 值 )，21, 59, 109-112 
partitioning (划分 )，15 
PGF (概率 生成 函数 )，132 
program (程序 )，14 
recurrence (递归 )，17,37, 39,58-59 
small subfiles (小 的 子 文件 )，20-21 
table ( 表 )，24 
variance (方差 )，27, 141-142 


R 


Radius of convergence (收敛 半径 )，214-217 
Radix-exchange sort (基数 交换 排序 ) 22 
analysis 《分 析 ) 210-213 
periodicity (周期 性 ) 402-405 
recurrence (递归 )，22 
and tries (与 trie 树 }，398, 402-406 
Ramanujan distributions (P, Q, R) (Ramanujan 分 布 )， 
188-193, 299-300, 356 
Ramanujan Q-function (Ramanujan Q- 函数 )，188 
asymptotics (#fuLtE). 203-206 
and birthday problem ( 与 生日 问题 ) 424-425 
definition (定义 )，188 
and linear probing hashing (与 线性 探测 散 列 法 )， 
424-425 
and maps 《与 映射 ) 462-463 
Random map model (随机 映射 模型 ) 454-457, 465, 
467-472: 参见 Map 
Random number generator (随机 数 发 生 器 ) 455-457, 
467-468 
Random permutation model: (随机 排列 模型 ) 299- 
300, 446 
Random string model (随机 串 模型 )，361, 365, 367: 参 
见 Binomial distribution; String; Word 
Random tree model (随机 树 模型 ): 参见 Binary search 
tree model; Catalan model 


Random trie model 〔〈 随 机 trie 树 模型 ) 401-402 
Random variable (随机 变量 )，129-132 
Random walk (随机 途径 )，380-381: 参见 Gambler’s 
ruin; Lattice path 
Random word model (随机 字模 型 )，413-416: 参见 
String; Word 
Randomization (随机 化 )，28-29, 309, 406-408, 415 
Randomness assumption (hashing) (随机 性 假设 ( 散 列 ))， 
415 
Randomness preservation (保持 随机 性 )，22 
Rational function (AAA), 95, 159-161 
and patterns in strings〈 与 串 中 模式 ) 372-377 
and regular expression ( 与 规则 表达 式 )，377-381 
and runs in strings (与 串 中 游程 )，369-372 
Rearrangement (重新 排列 ): 参见 In situ permutation 
Record 【记录 )，20 
Record (in permutation) (( 排列 中 的 ) 记录 ): 参见 
Maximum l 
Recurrence (313), 7, 13, 17, 35-41, 78-79 
bootstrapping (A 51), 54, 59-61 
change of variables (变量 变换 )，54 
classification (472K), 38-39 
first-order (—Wy), 41-44 
and generating functions ( 4: K&B), 92-100, 149 
homogeneous (77%), 41 
iteration (3840), 41, 56, 73-74 
linear (HE), 40-41 
linear constant coefficient 〈 线 性 常 系数 ) 50-52, 92- 
99, 159-161 
nonlinear first-order ( 非 线 性 一 阶 )，45-47 
perturbation (扰动 )，54, 60-62 
quadratic ( 二 次 的 )，55 
Tepertoire (指令 系统 )，54, 57-59 
scaling ( 标 度 )，40 
Recurrences in applications (应 用 程序 中 的 递归 ) 
height of trees (AI), 255-257, 261 
other types of trees (其 他 类 型 的 树 ) 292 
Recursive program (递归 程序 )，15, 221 
Register allocation (寄存 器 分 配 ) 55, 233-236, 262 
Regular expression (规则 表达 式 )，377-381 
and automaton ( 与 自动 机 )，379, 384 
and generating function ( 与 生成 函数 ) 378-379 
Relative error (asymptotics) ( 相对 误差 〈 渐 近 性 ) ) 167 
Repertoire method (recurrences) ( 取 值 表 法 (递归 ))， 
54, 57-59 
Rewriting rule ( 重 写 规则 ): 参见 Context-free grammar 
Rho length (p 长 )，459-461, 467-470 
Rho method (of Pollard) (p 方 法 (Pollard ) ) 466-471 
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Riemann sum (#24), 180, 183 

Riemann zeta function (% S0% ), 147-148 

Rise (in permutation) (( 在 排列 中 ) 上 升 ) 304, 326-330 

Root node (in a tree) (( 树 中 的 ) 根 结 点 )，223 

Rooted tree ( 根 树 ): 参见 Tree; Unordered tree 

Rotation correspondence (between binary trees and 
general trees) (旋转 对 应 〈 在 二 叉 树 和 一 般 树 之 
间 ))，227, 262 

Ruler function (标尺 函数 ) 68-70 

Run (in permutation) 〈( 排 列 中 的 ) 游程 ) 304, 326-330 

Run (in string) (( $J) 游程 )，366-373, 379 

Running time 〈 运 行 时 间 )，11l-12 


S 


Saddle point method (asymptotics) ( 鞍点 方法 ( 渐 近 性 ) )， 
435 
Search problem (搜索 问题 ) 236 
Searching algorithms (查找 算法 ): 参见 Binary search; 
Binary search tree; Hashing algorithms; Preorder 
traversal; String searching 
Selection sort (选择 排序 ) 343-350 
Sentinel (标记 ) ，362, 363,414 
Separate chaining (hashing) (分 离 链接 法 〈 散 列 )) 参 
见 Hashing algorithms 
Sequence construction (序列 构造 )，119 
Sequences (序列 )，84-86 
Set construction (集合 构造 )，121 
Sets of cycles (图 的 集合 )，122-126, 462 
Sets of strings (HARA), 362, 392-396 
Shellsort ( Æ RHE), 339-343 
Shift (sequences) (4z (FFFI])), 84-86 
Sim-notation (~) (Simig#k), 155-159 
Singleton cycle (in permutation) (( 排列 中 的 ) 单 圈 )， 
321, 352-354 
Singularity (of generating function) (( 生 成 函数 的 ) 奇异 
性 )，103, 216-218 
Singularity analysis (奇异 性 分 析 )，216-218: 参见 
Coefficient asymptotics; Darboux’s method 
and trees (与 树 ) 290 
Smallest correspondence (permutations) (最 小 对 应 〈 排 
列 ))，325 
Sorting (complexity) (排序 (复杂 性 ))，9 
Sorting algorithms (排序 算法 )，4-12, 307: 参见 Bubble 
sort;Insertion Sort; Mergesort; Quicksort; Radix- 
exchange sort; Selection sort; Shellsort 
Special numbers (493%), 142-147 
asymptotics (table) ( 渐 近 性 (#2)), 169 
definitions (table) (定义 (#€)), 143 


Stack (#%). 233, 261-262, 391-392 

Standard deviation (标准 差 )，13, 19, 26-27, 129-132, 
142 

Star operation on languages (+) (对 语言 的 星 操作 )，377 

Stirling cycle number (Stirling #): 参见 Stirling 
numbers of the first kind 


Stirling numbers of the first kind ip (第 一 类 Stirling 
数 )，143, 145 
asymptotics ( 渐 近 性 )，169 
counting cycles (对 圈 的 计数 )，351-352 
counting minima/maxima (对 极 大 / 极 小 的 计数 )，344- 
349 


Stirling numbers of the second kind, ( AD (第 二 类 
Stirling 数 )，143, 145 l 
asymptotics 《 渐 近 性 )，169 
counting subsets (对 子 集 的 计数 )，427, 429 
counting surjections (对 满 射 的 计数 ) 427-429 
and coupon collector ( 与 赠 票 收藏 家 )，427-429 
and maps ( 与 映射 ) 454-455 
Stirling subset number (Stirling 子 集 数 ): 参见 Stirling 
numbers of the second kind 
Stirling’s constant (o = /2n ) (Stirling 常 数 )，184- 187, 
209 
Stirling’s formula ( NI~ (N/e)* J2nN ) (Stirling 公 式 )， 
166-167, 184-187 
table (#2), 168 
and trees (5), 169, 174, 186, 288 
String ($), 361-362 
autocorrelation ( #42), 372-377 
bitstring (i248), 361 
bytestring (47H), 361,377, 408-409 
containing pattern (counting) (包含 模式 (计数 ))， 
372-377 
run (游程 )，368-373, 379 
and word (453), 413-414 
String, set of (HAV): 参见 Language; Trie 
String searching ( 串 查找 )，362, 409-410 
basic method (基本 方法 ) 362-366 
Boyer-Moore algorithm (Boyer-Moore #7), 408-409 
KMP algorithm (Knuth-Morris-Pratt 算 法 ) 382-385, 
408- 409 
suffix trie (Etrie), 399-401 
and tries (与 trie 树 ) ，362, 392, 398-401 
Subtree ( 子 树 ) 113, 222-223 
Successful search (成 功 查找 )，249, 414-416, 441-445, 
446-448, 451-452 
Suffix trie (后 缀 trie 树 ) 399-401, 402 
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Summation factor 〈( 求 和 因子 ) 43,52 
Sums (and integrals) (和 (与 积分 ) ) 179 
Surjection ( 满 射 ) 427-429, 433-435, 454- 455 
Symbol table (符号 表 ): 参见 Dictionary problem 
Symbolic method (符号 方法 ) 82, 118-126, 149 

labelled objects (标号 对 象 )，121-126 

theorems (定理 )，119, 124 

unlabelled objects (无 标号 对 象 )，118-121 
Symbolic method and constructions (符号 方法 与 结构 ) 

Cartesian product ( 笛 卡 儿 乘 积 )，118-119 

context-free grammar ( 上下文 无 关 语 法 )，385-392 

labelled cycle (标号 图 )，462 

labelled product (标号 乘积 )，123-124 

labelled sequence (标号 序列 )，124-125 

labelled set (标号 集 )，122-125 

min-rooting (最 小 值 置 根 法 )，315 

multiset ( 多重 集 )，121, 280 

regular expressions (规则 表达 式 ) 378-379 

sequence (序列 )，119-120 

set ( 集 )，121 


t-ary tree (t- Xf), 286 
t-restricted tree (t- 受 限 树 ) 287-290 
Tail (in map) (( 在 映射 中 ) 尾部 )，457-466 
Tails (of a sum, of a distribution) (( 和 的 ) 尾部 ，( 分 布 
的 ) 尾部 )，178, 197-198, 203 
Taylor expansions (泰勒 展开 式 )，164-165 
table (#2), 164 
Taylor theorem (泰勒 定理 )，101 
Telescoping (recurrence) (ikt (递归 ))，78 
Terminal symbol ( 终端 符号 ): 参见 Context-free 
grammar 
Ternary tree (= Mp), 127-128 
Text searching (文本 查找 ): 参见 String searching 
Theta notation (O9) (@ 记 法 ) 4-5 
Toll function ( 征 税 函数 )}: 参见 Additive parameter 
Transition (转换 ): 参见 Automaton 
Translation theorem ( 转换 定理 )，121, 135 
Traversal (WW) (of atree ( 树 的 ) ), 231-233 
Tree (#4): 2 hl general tree 
additive parameter ( 可 加 参数 )，251-254 
algorithms (算法 )，231-240 
and arithmetic expression (与 算术 表达 式 )，233-236 
average path length (平均 路 径 长 )，245-246 
binary (Z XA): 参见 Binary tree 
definition (general tree) (定义 (一般 树 ) )，225 
enumeration (计数 )，226 


enumeration (table) ( 枚 举 ( 表 ))，278, 286 
height (高 )，228-230, 256-260, 380-381 
labelled (标号 的 ): 参见 Labelled tree 
and maps ( 与 映射 )，459 
nomenclature (table) (命名 法 〈 表 ))，277 
ordered/unordered (有 序 / 无 序 ): 参见 Unordered tree 
other types (其 他 类 型 ) 286-293 
representation (表示 法 ) 265-272 
rotation correspondence (旋转 对 应 )，227 
traversal (遍历 ) ，231-233, 265-272 
Triangulation (of a polygon) (( 多 边 形 的 ) 三 角 剖 分 )， 
269-272 
Trie (trie 树 )，362, 392-396 
and binary search tree (与 二 叉 查 找 树 )，397 
internal/external node (内 部 /外 部 结 点 ) 392-396, 
402-406 
path length (analysis) (路 径 长 (分 析 ) )，402-406 
and radix-exchange sort (与 基数 交换 排序 ) 211-213, 
398, 402 
random (随机 )，401-402 
searching (查找 )，397-398 
size (analysis) (大 小 (分析 ))，402 
and string searching ( 与 串 查 找 )，362, 392 
suffix ( 后缀)，399-401 
sum (和 )，211-213 
2-ordered permutations (2- 有 序 排列 ) 207-210, 339- 
343, 388-390 
2-regular graph (2- 正 则 图 )，216 
2-3 tree (2-3 树 )，291 
fringe analysis (边缘 分 析 )，44 
functional equation (函数 方程 )，108 
2D-tree (2D- 树 )，270, 288 


U 


Unambiguous (formal language) (无 二 意 的 (形式 语 
言 )) 
context-free grammar (上 下 文 无 关 语 法 )，385-388 
regular expression (规则 表达 式 )，378-379, 384 
Uniform discrete distribution (均匀 离散 分 布 )，131 
Uniform hashing (均匀 散 列 ) ，446 
Union-find problem ( 求 并 问题 ) 272-273, 279 
Unlabelled object ( 无 标号 对 象 ) 89, 118-119, 121-122 
Unlabelled tree (无 标号 树 ): 参见 Tree 
Unnormalized mean ( 非 规范 化 平均 值 ): 参见 Cumulated 
cost 
Unordered tree (无 序 树 )，272-282, 285-286 
Unsuccessful search (不 成 功 查 找 )，249, 414-416, 441- 
445, 446-448, 451-452 
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Urns (#), 414, 416-421, 431-432, 437- 445 
V 


Valley (permutation) ( 谷 (排列 ) ): 参见 Peak Variance, 
26-27, 129-132 
and BGF (与 二 元 生成 函数 )，138 
and PGF (与 概率 生成 函数 )，129-132 
Vertical expansion (of a BGF)(( 二 元 生成 函数 的 ) EA 
展开 )，136, 139 
Void node (trie) ( 空 结 点 (trie 树 ) ) 392-396 
Vuillemin’s equivalence (BSTs and HOTs) (Vuillemin 等 
价 性 〈 二 叉 查 找 树 和 堆 序 树 ) ) 316-317 


W 


Word ( 字 )，413-416 


# 3l 


extremal statistics ( 极 值 统计 )，431-436 
frequency restrictions (table) (频率 限制 ( 表 ) )，435 
minimal occupancy ( 极 小 占有 )，433-435 
and map (与 映射 )，454 
maximal occupancy ( 极 大 占有 )，432-433, 435-436 
occupancy distributions (占有 分 布 )，437-441 
and occupancy problems (与 占有 问题 )，416- 421 
and string (443), 413-414 

Worst-case analysis (最 坏 情形 分 析 )，70 


Z 


Zeta function (of Riemann) (( #@ BAY) cg), 147- 148 


